为大模型提供全新科学复杂问答基准与测评体系，UNSW、阿贡、芝加哥大学等多家机构联合推出SciQAG框架

ScienceAI · 公众号 · · 2024-07-24 11:45

文章预览

将 ScienceAI 设为星标第一时间掌握新鲜的 AI for Science 资讯编辑 | ScienceAI 问答（QA）数据集在推动自然语言处理（NLP）研究发挥着至关重要的作用。高质量QA数据集不仅可以用于微调模型，也可以有效评估大语言模型（LLM）的能力，尤其是针对科学知识的理解和推理能力。尽管当前已有许多科学QA数据集，涵盖了医学、化学、生物等领域，但这些数据集仍存在一些不足。其一，数据形式较为单一，大多数为多项选择题（multiple-choice questions），它们易于进行评估，但限制了模型的答案选择范围，无法充分测试模型的科学问题解答能力。相比之下，开放式问答(openQA)可以更加全面地评估模型的能力，但缺乏合适的评估指标。其二，现有数据集的内容很多来源于大学及以下等级的教科书，难以评估LLM在实际学术研究或生产环境中的高层次知识保持能 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博