文章预览
为了探讨大型语言模型( LLM )在处理自然语言描述的图结构问题上的能力,提出了 NLGraph 基准测试集 ,包含 29,370 个涉及不同复杂度的图推理任务。这些任务从简单的 连通性 和 最短路径 到复杂的 最大流 和 图神经网络模拟 。评估结果显示, LLM 具备初步的图推理能力,但其高级提示和上下文学习在复杂问题上的优势减弱,且模型容易受问题设置中虚假相关性的影响。为改进 LLM 解决自然语言图问题的能力,研究者提出了 图形提示 和 算法提示 两种指令导向的方法,这些方法在多个任务上显著提升了性能,不过对于更复杂的图推理任务, LLM 的表现仍有待提升,这仍然是一个开放的研究问题。 1 NLGraph数据集 NLGraph 是一个专门为评估大型语言模型( LLM )在解决基于图结构的问题方面能力而设计的基准测试集。 NLGraph 包含了总共 29,370 个问题,覆盖
………………………………