文章预览
https://escholarship.org/uc/item/678864d8 数学推理是人类智能的关键组成部分,对于推动教育和科学发展至关重要。本论文深入研究了能够进行稳健数学推理的语言模型系统的发展,标志着实现通用人工智能的重要一步。我们引入了多模态和知识密集型基准来评估大型语言模型(LLMs)和视觉语言模型(VLMs)在真实世界中的推理能力,包括视觉信息、表格数据和科学领域。 本论文通过提出新的预训练VLMs推动了该领域的发展。例如,PatchTrm引入了一种基于patch的跨模态Transformer模型用于抽象图表推理。我们还提出了创新的检索和工具增强算法,以提升LLMs的能力。值得注意的是,Inter-GPS是一个用于几何的神经符号求解器,展示了人类水平的性能,这是该领域的首次突破。此外,PromptPG开创了使用强化学习进行动态上下文示例选择,显著提高了LLMs的稳定性和准确
………………………………