大模型落地，苦「最强」久矣

极客公园 · 公众号 · 科技媒体 · 2024-12-19 16:00

主要观点总结

文章讨论了关于AI大模型的“第一”、“最强”叙事背后的复杂场景简单化问题，并探讨了“选择才是最重要的”的观点。文章介绍了大模型落地的难题和评价标准多样性带来的挑战，强调了给用户更多选择的重要性。同时，文章以亚马逊云科技为例，说明了如何让用户有的选，如何尊重用户需求，以及在模型、算力和数据库方面的决策原则。

关键观点总结

关键观点1: AI大模型的“第一”、“最强”叙事背后的复杂场景简单化问题。

文章指出所谓的“第一”、“最强”大模型并不一定存在，因为这种叙事是简化了复杂场景的。在实际应用中，不同需求可能对应不同的最优解，没有一种单一的大模型能够应对所有场景。

关键观点2: 大模型落地的难题和评价标准多样性带来的挑战。

文章提到大模型落地中存在诸多难题，如过拟合、泛化能力削弱等。同时，由于评价标准多样性，很难判断哪个大模型是最优的。因此，给用户更多选择，比单一的评价标准更重要。

关键观点3: 如何让用户有的选，以及如何尊重用户需求。

文章以亚马逊云科技为例，说明了如何让用户有的选，包括性能与成本的选择、选择自家还是其他云服务商的原则等。同时，强调要尊重用户的真实需求，让用户的选择基于实际需求而非单一的评价标准。

关键观点4: 在模型、算力和数据库方面的决策原则。

文章提到在模型选择上，不仅要让用户有的选，还要提供自定义微调、模型蒸馏等功能，帮助企业更好地选择合适的模型。在算力和数据库方面，也要提供不同层级的选项，以满足不同企业的需求。

文章预览

「第一」「最强」叙事，是对复杂场景的简单化。作者 | Cynthia 编辑 | 郑玄没有刷不了的榜，只有还没 over-fitting 的数据集；没有搞不定的第一，只有还没加够 XX 领域，XX 尺寸，XX 语言的限定词。尽管自 2012 年深度学习复苏之日起，AI 打榜就成为了行业默认惯例，但历来如此，就是真的正确吗？去年 9 月，一篇 LLM 味爆棚的反讽文章，在 arXiv 引起轩然大波《Pretraining on the Test Set Is All You Need》，（别搞大模型了），你只需要在测试集上预训练就够了。吐槽了市面上层出不穷的各种大模型测试榜单之外，这篇论文，直白点名了 phi-1、TinyStories 和 phi-1.5 几个大模型在明目张胆搞榜单造假。比如，使用测试集中数据提问 phi-1.5，模型会立刻给出一个精准的回复，但只要改变一个数字或者改变一下数据格式，回答立刻变得牛头不对马嘴幻觉频出。原因 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博