文章预览
Munich NLP 本文分享慕尼黑大学Prof. Barbara Plank 团队与意大利Bocconi大学团队合作的一篇ACL 2024 Findings 文章:《"My Answer is C": First-Token Probabilities Do Not Match Text Answers in Instruction-Tuned Language Models》。本文指出了LLM 评估中,依靠第一个token的概率作为多选题答案的衡量方法的潜在问题。指令微调模型的文本答案与第一个token的概率存在大量的不匹配现象。该现象主要来源于模型无法完全服从指令,或者拒绝回答的情况。该现象在小尺寸模型(7b)尤其严重。 文章链接 (arxiv): https://arxiv.org/abs/2402.14499 或点击文末 阅读原文 获取原文链接 数据代码链接 (Github): https://github.com/mainlp/MCQ-Mismatch 01 简介 多选题是衡量语言模型重要形式之一。使用多选题的传统方法是使用first token probability作为语言模型的答案。通过对选项ID (“A”,“B”,“C”, “D”)的概率进
………………………………