欢迎您访问365答案网,请分享给你的朋友!
生活常识 学习资料

Python调用nodejs将html转换为Markdown

时间:2023-04-23

关于前端HTML转换为Markdown,发现了一个非常好用的npm项目:https://sitdown.mdnice.com/zh-hans/

首先确保本机已经安装nodejs,并根据下面的文章安装execjs并修改其源码:

execjs执行包含中文参数的Javascript
https://xxmdmst.blog.csdn.net/article/details/123099139

在python所在目录安装sitdown:

> npm install sitdownadded 2 packages, removed 220 packages, and changed 93 packages in 4s

确保当前目录中已经安装了sitdown(至少存在node_modules目录),我们就可以通过execjs在python中调用了:

import osimport execjsprint(execjs.get().name)js_code = """var { Sitdown } = require('sitdown');let sitdown = new Sitdown({ keepFilter: ['style'], codeBlockStyle: 'fenced', bulletListMarker: '-', hr: '---',});function html2md(data) { return sitdown.HTMLToMD(data)}"""ctx = execjs.compile(js_code)html = """

博客主页:https://blog.csdn.net/as604049322

欢迎点赞  收藏 ⭐留言  欢迎讨论!

本文由 小小明-代码实体 原创,首发于 CSDN

未来很长,值得我们全力奔赴更美好的生活✨

"""md = ctx.call("html2md", html)print(md)

结果:

Node.js (V8)> 博客主页:[https://blog.csdn.net/as604049322](https://blog.csdn.net/as604049322)> > 欢迎点赞  收藏 ⭐留言  欢迎讨论!> > 本文由 **小小明-代码实体** 原创,首发于 **CSDN**> > 未来很长,值得我们全力奔赴更美好的生活✨

可以看到转换效果还不错。

不过这种执行方法耗时较长,每次调用都需要1秒左右的时间。

如果我们需要频繁进行转换,推荐是使用node启动相关的http服务,python直接通过requests获取结果。

在安装目录下新建html2md.js文件,代码如下:

var { Sitdown } = require('sitdown');var http = require('http');let sitdown = new Sitdown({ keepFilter: ['style'], codeBlockStyle: 'fenced', bulletListMarker: '-', hr: '---',});// 创建http server,并传入回调函数:var server = http.createServer(function (request, response) { console.log(request.method + ': ' + request.url); let data = ''; request.on('data', chunk => { data += chunk; // 将接收到的数据暂时保存起来 }); request.on('end', () => {var markdown = sitdown.HTMLToMD(data);response.writeHead(200, {'Content-Type': 'text/html'});// 将HTTP响应的HTML内容写入response:response.end(markdown); });});// 让服务器监听18080端口:server.listen(18080);console.log('Server is running at http://127.0.0.1:18080/');

执行下面的命令启动nodejs服务:

>node html2md.jsServer is running at http://127.0.0.1:18080/

此时我们在直接http调用:

import requestsdef html2md(html, html2md_server="http://127.0.0.1:18080/"): res = requests.post(html2md_server, data=html.encode("u8")) res.encoding = "u8" md = res.text return mdhtml = """

博客主页:https://blog.csdn.net/as604049322

欢迎点赞  收藏 ⭐留言  欢迎讨论!

本文由 小小明-代码实体 原创,首发于 CSDN

未来很长,值得我们全力奔赴更美好的生活✨

"""md = html2md(html)print(md)

结果与上面一样,但耗时仅15毫秒。

Copyright © 2016-2020 www.365daan.com All Rights Reserved. 365答案网 版权所有 备案号:

部分内容来自互联网,版权归原作者所有,如有冒犯请联系我们,我们将在三个工作时内妥善处理。