Deep Research 类产品深度测评：下一个大模型产品跃迁点到来了吗？

海外独角兽 · 公众号 · 科技公司 · 2025-04-21 21:13

主要观点总结

本文主要是对近期出现的Deep Research类产品进行测评，从输出深度、训练程度、任务能力等方面进行评估，并对比了五家主要产品的表现。结果显示，各产品在不同任务中表现各有优劣，整体而言，Deep Research作为Agent产品的初代形态仍需要市场的耐心和时间的检验。

关键观点总结

关键观点1: 测评对象

本文的测评对象主要为Google Deep Research、OpenAI Deep Research、Perplexity、xAI Deep Search和Manus五个Deep Research产品。

关键观点2: 测评任务

本文主要进行了包括工具使用能力、指令执行能力、报告输出能力等在内的多项任务测评。

关键观点3: 测评结果

测评结果显示，各产品在不同的任务中表现各有优劣，其中OpenAI在多项任务中表现最强，Manus的工具使用能力有显著优势，xAI的指令执行能力稳定，PPLX表现平平，而Google在某些任务中表现欠佳。

关键观点4: 总结

整体而言，Deep Research作为Agent产品的初代形态，仍需要市场的耐心和时间的检验。各产品需要消除可见短板，提升内生能力和长文本报告输出能力，以触达更高的天花板。

文章预览

作者：Krystal 编辑：penny 从 2024 年末问世的 Google Deep Research，到 2024 年 2 月以来密集发布的 OpenAI Deep Research、Perplexity、xAI Deep Search、Manus，Deep Research 成为各家 Agent 产品角逐的白热化赛道。 Deep Research 产品可被理解为一个以大模型能力为基础、集合了检索与报告生成的端到端系统，对信息进行迭代搜索和分析，并生成详细报告作为输出。参考 Han Lee 的 2x2 分析框架，目前 Deep Research 类产品在输出深度、训练程度两大维度呈现分异。输出深度即产品在先前研究成果的基础上进行了多少次迭代循环以收集更多信息，可进一步被理解为 Agentic 能力的必要基础。低训练程度指代经过人工干预和调整的系统，比如使用人工调整的 prompt，高训练程度则是指利用机器学习对系统进行训练。和传统 LLM Search 产品相比，Deep Research 是迈向 Agent 产品雏形的一次跃 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

白鲸出海 · 共探品牌生长新路径，GTC2025 (Shenzhen)邀您加入这场DTC品牌出海盛会

7 小时前

白鲸出海 · 腾讯射击手游登顶美国游戏榜单，ChatGPT Search欧盟用户量逼近监管红线 | 一句话看出海新鲜事

7 小时前

阿里云开发者 · 为什么一定要做Agent智能体？

20 小时前

白鲸出海 · 国内卡牌爆火，有年入百亿的卡游、也有依靠国内红利出海拿下百万美元GMV的中小玩家 | 对话创始人

昨天

白鲸出海 · 中国互联网出海一周头条我们一起看真相聊大事儿 | 白鲸出品356期

2 天前

南昌晚报 · 李行亮自曝想过离婚，发长文：我们觉得很羞耻

3 月前

南昌晚报 · 李行亮自曝想过离婚，发长文：我们觉得很羞耻

3 月前

杭州交通918 · 刚刚确认反转！今晚抵达杭州！一波又一波

2 周前