文章预览
人工智能(AI)大模型的客观评测,有助于推动大模型行业的健康发展。然而, 当前业内的基准测试(benchmark)层出不穷,充斥着各种评测乱象 。 更值得深思的是,当一个模型在某个基准测试上的表现优于另一个模型时,这究竟是反映了模型间的真实的差异,还是仅仅因为选择了特定的问题而“运气好”? 从根本上说 , 评测就是实验, 但有关评测的研究在很大程度上忽视了其他科学中有关实验分析和规划的研究 ,业内缺乏对这一问题的深入研究。 今日凌晨, OpenAI 最强竞对、知名大模型初创公司 Anthropic 在其最新博客中试图回答这一问题 。他们通过借鉴统计理论和其他科学中实验分析和规划的研究,向人工智能行业提出了一些建议,以便以科学的方式报告语言模型评测结果,最大限度地减少统计噪声,增加真实信息量。 相关研究论文也于前
………………………………