专栏名称: 深度学习自然语言处理

一个从大三就接触NLP的小小NLPer，本公众号每天记录自己的一点一滴，每篇文章最后也有托福单词等新知识，学技术同时，也一点一滴积累额外的知识。期待与你在知识的殿堂与你相遇！

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

相关文章推荐

武汉大学学生会 · 师道风范｜计算机学院张健老师 · 11 小时前

武汉大学学生会 · 赛事速递｜五人制足球3月26日赛果及3月28 ... · 11 小时前

四川大学本科招生 · 上海考生看过来！川大2025本科招生宣讲会与 ... · 18 小时前

武汉大学学生会 · 师道风范｜泰康医学院（基础医学院）龚克老师 · 2 天前

武汉大学学生会 · 武大“食光机”：寻五湖四海之至味 · 3 天前

今天看啥 › 专栏 › 深度学习自然语言处理

ACL 2024 ｜“我的回答是C": 在指令微调语言模型中，第一个token概率与文本答案不匹配

深度学习自然语言处理 · 公众号 · · 2024-07-09 13:34

文章预览

Munich NLP 本文分享慕尼黑大学Prof. Barbara Plank 团队与意大利Bocconi大学团队合作的一篇ACL 2024 Findings 文章：《"My Answer is C": First-Token Probabilities Do Not Match Text Answers in Instruction-Tuned Language Models》。本文指出了LLM 评估中，依靠第一个token的概率作为多选题答案的衡量方法的潜在问题。指令微调模型的文本答案与第一个token的概率存在大量的不匹配现象。该现象主要来源于模型无法完全服从指令，或者拒绝回答的情况。该现象在小尺寸模型（7b）尤其严重。文章链接 (arxiv): https://arxiv.org/abs/2402.14499 或点击文末阅读原文获取原文链接数据代码链接 (Github): https://github.com/mainlp/MCQ-Mismatch 01 简介多选题是衡量语言模型重要形式之一。使用多选题的传统方法是使用first token probability作为语言模型的答案。通过对选项ID （“A”，“B”，“C”， “D”）的概率进 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博