主要观点总结
本文主要是对近期出现的Deep Research类产品进行测评,从输出深度、训练程度、任务能力等方面进行评估,并对比了五家主要产品的表现。结果显示,各产品在不同任务中表现各有优劣,整体而言,Deep Research作为Agent产品的初代形态仍需要市场的耐心和时间的检验。
关键观点总结
关键观点1: 测评对象
本文的测评对象主要为Google Deep Research、OpenAI Deep Research、Perplexity、xAI Deep Search和Manus五个Deep Research产品。
关键观点2: 测评任务
本文主要进行了包括工具使用能力、指令执行能力、报告输出能力等在内的多项任务测评。
关键观点3: 测评结果
测评结果显示,各产品在不同的任务中表现各有优劣,其中OpenAI在多项任务中表现最强,Manus的工具使用能力有显著优势,xAI的指令执行能力稳定,PPLX表现平平,而Google在某些任务中表现欠佳。
关键观点4: 总结
整体而言,Deep Research作为Agent产品的初代形态,仍需要市场的耐心和时间的检验。各产品需要消除可见短板,提升内生能力和长文本报告输出能力,以触达更高的天花板。
文章预览
作者:Krystal 编辑:penny 从 2024 年末问世的 Google Deep Research,到 2024 年 2 月以来密集发布的 OpenAI Deep Research、Perplexity、xAI Deep Search、Manus,Deep Research 成为各家 Agent 产品角逐的白热化赛道。 Deep Research 产品可被理解为 一个以大模型能力为基础、集合了检索与报告生成的端到端系统,对信息进行迭代搜索和分析,并生成详细报告作为输出。 参考 Han Lee 的 2x2 分析框架,目前 Deep Research 类产品在 输出深度、训练程度 两大维度呈现分异。 输出深度 即产品在先前研究成果的基础上进行了多少次迭代循环以收集更多信息,可进一步被理解为 Agentic 能力的必要基础。 低训练程度 指代经过人工干预和调整的系统,比如使用人工调整的 prompt,高训练程度则是指利用机器学习对系统进行训练。 和传统 LLM Search 产品相比,Deep Research 是迈向 Agent 产品雏形的一次跃
………………………………