文章预览
点击上方 蓝字 关注我 本文:6700字 阅读 15分钟 大语言模型(LLM)真的能"看懂"图像吗? 它们能否仅通过文字描述就"想象"出图像的样子? 这些问题不仅关乎AI的认知能力,更涉及到人类智能的本质。 来自马克斯·普朗克智能系统研究所、剑桥大学和麻省理工学院的研究团队近期发表了一篇开创性论文,首次系统性地探索了大语言模型理解符号图形程序的能力。 图片由修猫创作 01 为什么要研究符号图形程序? 符号图形程序是一种用代码描述图像或3D模型的方法。与普通的像素图像不同,符号图形程序可以精确地定义图形的几何结构和语义信息。例如,一个简单的SVG代码就可以描述一个完整的图标,而CAD程序则可以定义复杂的3D模型。 研究者选择符号图形程序作为研究对象,有以下几个原因: 1. 程序性表示: 符号图形程序提供了一种结构化的
………………………………