一个从大三就接触NLP的小小NLPer,本公众号每天记录自己的一点一滴,每篇文章最后也有托福单词等新知识,学技术同时,也一点一滴积累额外的知识。期待与你在知识的殿堂与你相遇!
今天看啥  ›  专栏  ›  深度学习自然语言处理

Reader-LM:将原始HTML转换为干净Markdown的小型语言模型

深度学习自然语言处理  · 公众号  ·  · 2024-09-25 17:33

文章预览

2024 年 4 月,我们发布了 Jina Reader,一个简单实用的 API,只需要在网址前面加个 r.jina.ai,就能把网页变成大型语言模型(LLM)喜欢的 Markdown 格式。 Jina Reader 背后的技术很复杂,但核心的“读取”部分相对简单: 首先,我们使用无头浏览器读取网页代码,接着用 Mozilla 的 Readability 提取主要内容,去掉头部、底部、导航栏、侧边栏等元素。再用正则表达式和 Turndown 库把清理好的 HTML 变成 Markdown。 得到一个结构良好的 Markdown 文件后,LLM 就能轻松提取信息、做摘要和推理了。 Jina Reader 刚发布那几周,我们收到了大量用户反馈,主要是对内容质量的意见。有人觉得内容太详细,有人又嫌不够详细,还有人说 Readability 过滤器删错了东西,或者 Turndown 转换 HTML 有问题。还好,很多问题通过正则表达式和一些小技巧解决了。 但是,我们一直在思考: 与其 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览