文章预览
1. 背景 在开发 “ 本草 ” 医学大模型的过程中,我们深刻意识到构建高质量医学基准的重要性。目前,虽然已经有许多中文医学基准相继推出,但这些基准或多或少都存在一些问题,导致我们无法准确评估模型的能力,从而影响对模型性能的判断和改进。为了解决现有医学基准的不足,我们自主构建了一个更加完善的医学基准,以更准确地评价模型的能力。 2. 介绍 当前的基准存在两个显著问题:(1)根据之前的研究 [1,2] ,许多医学大语言模型在回答多项选择题时表现出较低的一致性,使其回答看起来像是随机的。如图1中的前两个例子所示,在更改答案选项之前,ChatGLM2-6B给出了详细的推理,但得出了错误的答案。而在答案选项被修改之后,它的回答正确了,但内容简短得多。这表明大语言模型在回答多项选择题时存在显著的不确定性。(2)
………………………………