主要观点总结
文章讨论了大型语言模型(LLM)在机器智能领域的进展,特别是机器常识的研究。文章指出,机器常识不仅涉及高效学习,还包括自我反思和抽象等能力。文章还提到了目前评估人工智能系统常识推理能力的测试存在的问题,并提倡采取一系列措施来解决这些问题,包括从认知科学、哲学和心理学中找出关于人类如何学习和运用常识的关键原则,设计全面的基准测试,以及避免与构建感知和驾驭混乱的现实世界环境的具体系统的愿景脱节。
关键观点总结
关键观点1: 大型语言模型(LLM)在机器智能领域的进展代表了向展示“通用人工智能”迈出的决定性步骤。
LLM已经在涉及记忆的测试中表现出良好的性能,但在处理不确定性和新颖情况时,仍然存在挑战。
关键观点2: 机器常识不仅限于高效学习,还包括自我反思和抽象等能力。这涉及到事实知识和运用这些知识进行推理的能力的结合。
当前评估人工智能系统常识推理能力的测试主要依赖于多项选择题,但这种方法存在局限性,无法充分探究模型展示灵活、多步骤、常识性推理的能力。
关键观点3: 研究人员需要采取一系列措施来解决评估人工智能系统常识推理能力的问题。
这包括从认知科学、哲学和心理学中找出关于人类如何学习和运用常识的关键原则,设计全面的基准测试,以及确保测试协议的独立性,消除隐藏的偏见。
文章预览
2022 年英国格拉斯顿伯里音乐节上,一名机器人艺术家正在为表演者创作画作。图片来源:Leon Neal/Getty 自不到两年前公开发布以来,大型语言模型 (LLM)(例如 ChatGPT 所依赖的模型)已在机器智能领域取得了令人振奋且激动人心的进展。一些研究人员和评论员推测,这些工具可能代表着向展示“通用人工智能”——与人类智能相关的一系列能力——的机器迈出了决定性的一步,从而完成了人工智能 (AI) 研究领域 70 年的探索1。 这一旅程的一个里程碑是机器常识的展示。对人类来说,常识是关于人和日常生活的“显而易见的东西”。人类从经验中知道玻璃制品易碎,或者当素食朋友来访时,提供肉类可能是不礼貌的。如果有人犯了大多数人通常不会犯的错误,就被认为缺乏常识。在这方面,当代法学硕士往往做得不够好。 LLM 通常在涉及记忆的测试中
………………………………