StructFact：大语言模型结构化数据事实知识推理能力评估基准

旺知识 · 公众号 · · 2024-08-25 16:48

文章预览

大型语言模型（LLMs）在各种自然语言处理任务中取得了显著进展，这得益于它们理解和推理事实知识的能力。然而，大量的事实知识存储在结构化数据中，这些数据具有与预训练使用的非结构化文本不同的独特特性。这种差异可能会引入难以察觉的推理参数偏差，为LLMs在有效利用和推理结构化数据以准确推断事实知识方面带来挑战。为此，我们提出了一个名为StructFact的基准测试，用于评估LLMs在推理事实知识方面的结构推理能力。StructFact包含8,340个涵盖各种任务、领域、时间和地区的事实问题。此基准测试使我们能够跨五个事实任务调查LLMs的能力，这些任务源自结构化事实的独特特性。对一组采用不同训练策略的LLMs进行的广泛实验揭示了当前LLMs在从结构化数据推断事实知识方面的局限性。我们将这个基准测试作为指南针，以指导LLMs在结构化数 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博