主要观点总结
文章介绍了百度董事长李彦宏对目前大模型行业跑分现象的看法。他认为大模型行业的竞争不应只看跑分成绩,更重要的是模型的实际表现以及在具体应用中的性能表现和用户价值提升能力。他还提到不同模型的局限性、关于模型的误解等问题。
关键观点总结
关键观点1: 李彦宏对跑分榜的评价与担忧。
他认为单一维度的跑分排名无法完全代表大模型的实际能力,不同维度(如能力、成本等)的比较也很重要。同时,他也指出了过度拟合测试集的问题,提醒人们模型在实际应用中的表现可能更关键。
关键观点2: 关于模型打榜的讨论。
李彦宏提到虽然打榜有一定的局限性,但仍有其意义和价值,比如提供了一个量化的评估标准,有助于推动大模型技术的竞争和优化。
关键观点3: 李彦宏关于大模型竞争的观点。
他强调了大模型之间的差异不仅仅是技术的领先或落后几个月的时间。真正重要的是在实际应用中是否满足用户需求,能否实现价值增益。
关键观点4: 李彦宏关于闭源大模型的看法。
他强调了闭源大模型的优势,并认为在商业领域追求效率时,开源模型并没有优势。
关键观点5: 关于大模型应用演进的展望。
李彦宏讨论了未来大模型应用的几个发展阶段,包括Copilot辅助人类工作的阶段,Agent智能体的自主性提升阶段以及未来的AI Worker阶段。
文章预览
2024.09. 11 本文字数:1769,阅读时长大约3分钟 作者 | 第一财经 刘佳 每当有新版本的大模型发布时,业界总是热衷于引用第三方榜单数据,拿自家大模型和GPT-4一起“跑个分”,声称已经在某些指标上实现了超越,以此来证明自己的大模型技术实力。 但在近日百度董事长李彦宏和内部员工的一场交流中,捅破了大模型行业跑分的“窗户纸”。“每次新模型发布,都要和GPT-4o做比较,说我的得分已经跟它差不多了,甚至某些单项上得分已经超过它了,但这并不表明和最先进的模型就没有差距了。” 他进一步解释道,模型之间的差距是多维度的。一个维度是能力方面,不管是理解能力、生成能力、逻辑推理能力还是记忆能力等这些基本能力上的差距;另一个维度是成本方面,有些模型虽能达到同样效果,但成本高、推理速度慢,其实还是不如先进模
………………………………