文章预览
2025年 1 月 21 日,Mark Steyvers Team(团队详情在文末)在《 Nature Machine Intelligence s》见刊了一篇题为“What large language models know and what people think they know”的研究论文, 随着人工智能系统,特别是大型语言模型(LLMs)越来越多地融入决策过程中,信任其输出的能力变得至关重要。 为了赢得人类的信任,LLMs必须经过良好校准,以便能够准确评估并传达其预测正确的可能性。 尽管最近的工作集中在LLMs的内部信心上,但对于它们向用户有效传达不确定性的能力了解较少。 本文探讨了校准差距,即人类对LLM生成答案的信心与模型实际信心之间的差异,以及辨别差距,这反映了人类和模型区分正确与错误答案的能力。通过多项选择题和简答题的实验发现,当用户提供默认解释时,倾向于高估LLM响应的准确性。 此外,即使额外长度并未提高答案准确性,较
………………………………