今天看啥  ›  专栏  ›  Hugging Face

社区供稿 | Reader-LM: 将原始 HTML 转换为干净 Markdown 的小型语言模型

Hugging Face  · 公众号  ·  · 2024-09-20 10:30

文章预览

2024 年 4 月,我们发布了 Jina Reader,一个简单实用的 API,只需要在网址前面加个 r.jina.ai,就能把网页变成大型语言模型(LLM)喜欢的 Markdown 格式。 Jina Reader 背后的技术很复杂,但核心的“读取”部分相对简单: 首先,我们使用无头浏览器读取网页代码,接着用 Mozilla 的 Readability 提取主要内容,去掉头部、底部、导航栏、侧边栏等元素。再用正则表达式和 Turndown 库把清理好的 HTML 变成 Markdown。 得到一个结构良好的 Markdown 文件后,LLM 就能轻松提取信息、做摘要和推理了。 Jina Reader 刚发布那几周,我们收到了大量用户反馈,主要是对内容质量的意见。有人觉得内容太详细,有人又嫌不够详细,还有人说 Readability 过滤器删错了东西,或者 Turndown 转换 HTML 有问题。还好,很多问题通过正则表达式和一些小技巧解决了。 但是,我们一直在思考: 与其 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览