文章预览
将 ScienceAI 设为 星标 第一时间掌握 新鲜的 AI for Science 资讯 编辑 | ScienceAI 问答(QA)数据集在推动自然语言处理(NLP)研究发挥着至关重要的作用。高质量QA数据集不仅可以用于微调模型,也可以有效评估大语言模型(LLM)的能力,尤其是针对科学知识的理解和推理能力。 尽管当前已有许多科学QA数据集,涵盖了医学、化学、生物等领域,但这些数据集仍存在一些不足。 其一,数据形式较为单一,大多数为多项选择题(multiple-choice questions),它们易于进行评估,但限制了模型的答案选择范围,无法充分测试模型的科学问题解答能力。 相比之下,开放式问答(openQA)可以更加全面地评估模型的能力,但缺乏合适的评估指标。 其二,现有数据集的内容很多来源于大学及以下等级的教科书,难以评估LLM在实际学术研究或生产环境中的高层次知识保持能
………………………………