主要观点总结
哈佛大学研究了大型语言模型在回答晦涩难懂和有争议问题时产生幻觉的原因,发现模型输出的准确性依赖于训练数据的质量和数量。报告指出大模型在处理有广泛共识的问题时表现较好,但在面对争议性或信息不足的主题时易产生误导性回答。研究包括对不同主题设计提示让四个大模型回答,并观察结果。此外,文章还讨论了认知信任、众包和大模型之间的关系。
关键观点总结
关键观点1: 大型语言模型在回答问题时存在‘幻觉’现象,即生成看似真实但非事实、无意义或与给定提示不一致的回应。
这种现象可能导致错误信息的传播,对关键决策造成有害后果,甚至导致用户对AI系统的不信任。
关键观点2: 大模型产生幻觉的原因与训练数据的质量和数量有关。
大模型通过在海量数据上建立共现词概率模型进行文本生成,但模型的输出并不总是基于真实世界的语义含义或真实性,而是与训练集中所有单词及其出现位置的统计概率有关。
关键观点3: 众包和大模型有相似之处。
大模型可以被认为是众包信任的一种形式,基于互联网上的问题及所有答案来生成常见的回应。当主题有普遍共识时,大模型的输出可以反映出该共识观点;但在处理晦涩或有争议的主题时,生成的结果可能是似是而非的。
关键观点4: 实验结果显示,大型语言模型在处理具有争议性或信息不足的主题时准确性较低。
研究人员通过设计一系列提示让四个大模型回答,并观察到在有争议的主题上模型更易产生幻觉。
关键观点5: 大模型的可变性突显了其依赖于训练数据的数量和质量。
这与众包系统相似,大模型的回复依赖于训练数据的广度和质量。
文章预览
新智元报道 编辑:LRS 【新智元导读】 哈佛大学研究了大型语言模型在回答晦涩难懂和有争议问题时产生「幻觉」的原因,发现模型输出的准确性高度依赖于训练数据的质量和数量。研究结果指出,大模型在处理有广泛共识的问题时表现较好,但在面对争议性或信息不足的主题时则容易产生误导性的回答。 自ChatGPT发布以来,用户的搜索方式、人机交互都发生了极大改变,诸如问题回答、文本总结和交流对话等各种简单应用场景下的体验都有了很大提升,有时甚至超过了人类的表现。 大模型之所以能生成全面且连贯的文本,其能力主要来源于Transformer模型架构和海量预训练、微调数据集。 不过,大模型还存在一个顽疾「幻觉」,会生成一些看似真实但非事实、无意义或与给定提示不一致的回应,可能会导致错误信息的传播,在关键决策应用
………………………………