专栏名称: 深度学习自然语言处理

一个从大三就接触NLP的小小NLPer，本公众号每天记录自己的一点一滴，每篇文章最后也有托福单词等新知识，学技术同时，也一点一滴积累额外的知识。期待与你在知识的殿堂与你相遇！

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

Reader-LM：将原始HTML转换为干净Markdown的小型语言模型

深度学习自然语言处理 · 公众号 · · 2024-09-25 17:33

文章预览

2024 年 4 月，我们发布了 Jina Reader，一个简单实用的 API，只需要在网址前面加个 r.jina.ai，就能把网页变成大型语言模型（LLM）喜欢的 Markdown 格式。 Jina Reader 背后的技术很复杂，但核心的“读取”部分相对简单：首先，我们使用无头浏览器读取网页代码，接着用 Mozilla 的 Readability 提取主要内容，去掉头部、底部、导航栏、侧边栏等元素。再用正则表达式和 Turndown 库把清理好的 HTML 变成 Markdown。得到一个结构良好的 Markdown 文件后，LLM 就能轻松提取信息、做摘要和推理了。 Jina Reader 刚发布那几周，我们收到了大量用户反馈，主要是对内容质量的意见。有人觉得内容太详细，有人又嫌不够详细，还有人说 Readability 过滤器删错了东西，或者 Turndown 转换 HTML 有问题。还好，很多问题通过正则表达式和一些小技巧解决了。但是，我们一直在思考：与其 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博