文章预览
检索增强生成(RAG)在开放域问答任务中表现出色。然而,传统搜索引擎可能会检索浅层内容,限制了大型语言模型(LLM)处理复杂、多层次信息的能力。为了解决这个问题,我们引入了WebWalkerQA,一个旨在评估LLM执行网页遍历能力的基准。它评估LLM系统性地遍历网站子页面以获取对应信息的能力。同时我们提出了WebWalker,一个通过explorer-critic范式模拟人类网页导航的multi-agent框架。广泛的实验结果表明,WebWalkerQA具有挑战性,证明了结合WebWalker的RAG在实际场景中通过横向搜索和纵向页面挖掘集成的有效性。 论文 : https://arxiv.org/pdf/2501.07572 主页 : https://alibaba-nlp.github.io/WebWalker 代码 : https://github.com/Alibaba-nlp/WebWalker ModelScope-Demo : https://www.modelscope.cn/studios/iic/WebWalker Huggingface-Demo : https://huggingface.co/spaces/callanwu/WebWalker 作者 : Wzl 编辑 : 深度学习自然语
………………………………