专栏名称: AINLP

关注AI、NLP相关技术，关注算法研发职位和课程；回复"文章"获取历史信息；双语聊天机器人"无名"；中英翻译请输入：翻译翻译内容；自动对联，请输入：上联上联内容；调戏夸夸聊天机器人，请求夸、求赞；查询相似词，请输入: 相似词词条

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

WebWalker: 大模型乘风破浪，探索网页深海

AINLP · 公众号 · · 2025-01-20 22:58

文章预览

检索增强生成（RAG）在开放域问答任务中表现出色。然而，传统搜索引擎可能会检索浅层内容，限制了大型语言模型（LLM）处理复杂、多层次信息的能力。为了解决这个问题，我们引入了WebWalkerQA，一个旨在评估LLM执行网页遍历能力的基准。它评估LLM系统性地遍历网站子页面以获取对应信息的能力。同时我们提出了WebWalker，一个通过explorer-critic范式模拟人类网页导航的multi-agent框架。广泛的实验结果表明，WebWalkerQA具有挑战性，证明了结合WebWalker的RAG在实际场景中通过横向搜索和纵向页面挖掘集成的有效性。论文 : https://arxiv.org/pdf/2501.07572 主页 : https://alibaba-nlp.github.io/WebWalker 代码 : https://github.com/Alibaba-nlp/WebWalker ModelScope-Demo : https://www.modelscope.cn/studios/iic/WebWalker Huggingface-Demo : https://huggingface.co/spaces/callanwu/WebWalker 作者： Wzl 编辑：深度学习自然语 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

湖南日报 · 腰围太大，体重超重！国家卫健委出手→

21 小时前

潇湘晨报 · 《余罪》男演员赵雷棋在西双版纳街头直播摆摊刷鞋：没戏拍，摆摊给大家服务也能挣钱

昨天

潇湘晨报 · 美国一山脉发生雪崩，三名滑雪爱好者可能被埋在9米深的积雪中

2 天前

数据中心运维管理 · 到底数据中心消耗多少能源？

4 天前

潇湘晨报 · 知名男歌手，突然宣布复出！

3 天前

dotNET跨平台 · 将.NET Core 微服务和 Kubernetes 、 NGINX、Docker进行部署集成

9 月前

绯闻录 · 白富美比基尼写真，明艳大气！

2 周前