一记惊雷：改一下Prompt的输出顺序，就能显著影响LLM的评估结果

AI修猫Prompt · 公众号 · · 2024-08-08 16:39

文章预览

点击上方蓝字关注我本文：3600字阅读 9分钟如何有效评估目前 AI 的输出质量？这是一个大问题。来自东京大学的研究团队最近发表了一项开创性研究，深入探讨了 LLM 评估中的关键因素。让人感到炸裂的是：改变一下输出顺序就能显著影响 LLM 评估结果；如果 Prompt 中涉及评分和理由，先评分再给理由，先给理由再评分结果也会大不同；评分规则和模型类型也会对评分有明显影响。 01 评估困境：当AI遇上主观性在AI发展的快车道上，我们似乎总是更关注如何让模型变得更强大、更智能。但是，一个常被忽视却同样重要的问题是：我们如何准确评估这些模型的输出质量？特别是在对话评估这样高度主观的任务中，这个问题变得尤为棘手。图片来自公众号公共图片库传统的自动评估指标如BLEU或ROUGE在面对开放式生成任务时往往显得力不从心。而 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博