专栏名称: Jina AI
Your Search Foundation, Supercharged.
目录
相关文章推荐
今天看啥  ›  专栏  ›  Jina AI

DeepSearch/DeepResearch中最优文本段选择和URL重排

Jina AI  · 公众号  ·  · 2025-03-13 15:39
    

文章预览

如果你已经读过我们上一篇经典长文《 DeepSearch/DeepResearch 的设计与实现 》,那么不妨再深挖一些能大幅提升回答质量的细节。这次,我们将重点关注两个细节: 从长网页提取最优文本段 :如何利用迟分(late-chunking)算法,从长网页内容中选取最相关的信息小片段。 对收集到的URL进行重排 :如何利用重排器(Reranker) 让 LLM Agent 在几百个URL中 聪明地 选择爬取哪一个 URL? 可能有人还记得我们上一篇里的结论:“在 DeepSearch 中,Embeddings 模型仅适用于诸如 STS(语义文本相似度)任务之类的查询去重,而 Reranker 甚至不在我们最初的 DeepSearch 编程实现中。” 现在看来,这两类召回模型还是有其价值的,只是用法和我们常规的认知不太一样。我们做搜索一直遵循“80-20”原则,不会为了照顾情绪价值,或为证明自己作为 Embeddings 和 Reranker 提供商的市场存在感 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览