文章预览
gai点击上方 蓝字 关注我 本文:4300字阅读 13分钟 这个假期有群友咨询我,不同的LLM执行相同的Prompt时,输出的内容为什么差异显著 ?恰巧,Mila、谷歌DeepMind和微软的研究团队近期联合发布了一项重要研究成果,揭示了LLM在推理能力上存在的显著差异。 这项研究不仅挑战了我们对LLM 推理 能力的认知,也提醒我们在开发AI应用时 , LLM的选择上要多考虑一些因素 ,尤其是需要注意 P rompt的敏感性和一致性。 01 挑战"掌握"小学数学的假设 # 长期以来,业界普遍认为大型语言模型已经"掌握"了小学数学,特别是在GSM8K基准测试上的出色表现更是强化了这一观点。然而,这种表面上的"掌握"是否真的反映了模型对基础数学概念的深入理解?还是仅仅是表面模式识别的结果?带着这些疑问,研究团队设计了一个巧妙的实验——组合式GSM(Compositional
GSM)测试。
………………………………