专栏名称: 赛尔实验室
哈尔滨工业大学社会计算与信息检索研究中心
目录
相关文章推荐
今天看啥  ›  专栏  ›  赛尔实验室

针对“本草”等医学大模型的基准构建

赛尔实验室  · 公众号  · 程序员  · 2024-11-08 09:46
    

文章预览

1.   背景 在开发 “ 本草 ” 医学大模型的过程中,我们深刻意识到构建高质量医学基准的重要性。目前,虽然已经有许多中文医学基准相继推出,但这些基准或多或少都存在一些问题,导致我们无法准确评估模型的能力,从而影响对模型性能的判断和改进。为了解决现有医学基准的不足,我们自主构建了一个更加完善的医学基准,以更准确地评价模型的能力。 2. 介绍 当前的基准存在两个显著问题:(1)根据之前的研究 [1,2] ,许多医学大语言模型在回答多项选择题时表现出较低的一致性,使其回答看起来像是随机的。如图1中的前两个例子所示,在更改答案选项之前,ChatGLM2-6B给出了详细的推理,但得出了错误的答案。而在答案选项被修改之后,它的回答正确了,但内容简短得多。这表明大语言模型在回答多项选择题时存在显著的不确定性。(2) ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览