专栏名称: ScienceAI
关注人工智能与其他前沿技术、基础学科的交叉研究与融合发展。
今天看啥  ›  专栏  ›  ScienceAI

为大模型提供全新科学复杂问答基准与测评体系,UNSW、阿贡、芝加哥大学等多家机构联合推出SciQAG框架

ScienceAI  · 公众号  ·  · 2024-07-24 11:45

文章预览

将 ScienceAI   设为 星标 第一时间掌握 新鲜的 AI for Science 资讯 编辑 | ScienceAI 问答(QA)数据集在推动自然语言处理(NLP)研究发挥着至关重要的作用。高质量QA数据集不仅可以用于微调模型,也可以有效评估大语言模型(LLM)的能力,尤其是针对科学知识的理解和推理能力。 尽管当前已有许多科学QA数据集,涵盖了医学、化学、生物等领域,但这些数据集仍存在一些不足。 其一,数据形式较为单一,大多数为多项选择题(multiple-choice questions),它们易于进行评估,但限制了模型的答案选择范围,无法充分测试模型的科学问题解答能力。 相比之下,开放式问答(openQA)可以更加全面地评估模型的能力,但缺乏合适的评估指标。 其二,现有数据集的内容很多来源于大学及以下等级的教科书,难以评估LLM在实际学术研究或生产环境中的高层次知识保持能 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览