为大模型提供全新科学复杂问答基准与测评体系，UNSW、阿贡、芝加哥大学等多家机构联合推出SciQAG框架

数据派THU · 公众号 · 大数据 · 2024-08-31 17:00

文章预览

来源：Science 本文约3500字，建议阅读 5 分钟第一个基于大语言模型（LLM）从大型科学文献语料库中自动生成高质量科学开放性问答对的新型框架。问答（QA）数据集在推动自然语言处理（NLP）研究发挥着至关重要的作用。高质量QA数据集不仅可以用于微调模型，也可以有效评估大语言模型（LLM）的能力，尤其是针对科学知识的理解和推理能力。尽管当前已有许多科学QA数据集，涵盖了医学、化学、生物等领域，但这些数据集仍存在一些不足。其一，数据形式较为单一，大多数为多项选择题（multiple-choice questions），它们易于进行评估，但限制了模型的答案选择范围，无法充分测试模型的科学问题解答能力。相比之下，开放式问答(openQA)可以更加全面地评估模型的能力，但缺乏合适的评估指标。其二，现有数据集的内容很多来源于大学及以下等级的 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博