文章预览
文章探讨了大型语言模型( LLMs ),例如 GPT-4 ,是否以及在何种意义上拥有知识。作者认为,这些模型展现了一种称为“工具性知识”的能力,这种知识允许它们根据输入上下文推断任务结构,并在此基础上进行下个词预测。然而,为了将这种工具性知识视为普通意义上的“知识”,它必须包含一定程度关于现实世界的理解——即“常识知识”。尽管 LLMs 主要是通过大规模互联网文本数据训练来预测下一个单词或标记,但文章探讨了这些模型如何能够通过压缩技术捕捉到一定程度的世俗内容,并且可能通过预训练阶段获取到了超越形式语言能力的知识碎片。文章还提到,某些经过微调的 LLMs 在处理需要常识知识的任务时表现出色,并且预训练模型可以通过所谓的“情境学习”来执行新任务,这表明它们可能已经吸收了一些超出纯粹语言模式匹配的
………………………………