针对“本草”等医学大模型的基准构建

赛尔实验室 · 公众号 · 程序员 · 2024-11-08 09:46

文章预览

1. 背景在开发 “ 本草 ” 医学大模型的过程中，我们深刻意识到构建高质量医学基准的重要性。目前，虽然已经有许多中文医学基准相继推出，但这些基准或多或少都存在一些问题，导致我们无法准确评估模型的能力，从而影响对模型性能的判断和改进。为了解决现有医学基准的不足，我们自主构建了一个更加完善的医学基准，以更准确地评价模型的能力。 2. 介绍当前的基准存在两个显著问题：（1）根据之前的研究 [1,2] ，许多医学大语言模型在回答多项选择题时表现出较低的一致性，使其回答看起来像是随机的。如图1中的前两个例子所示，在更改答案选项之前，ChatGLM2-6B给出了详细的推理，但得出了错误的答案。而在答案选项被修改之后，它的回答正确了，但内容简短得多。这表明大语言模型在回答多项选择题时存在显著的不确定性。（2） ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

sven_shi · 看评论就发现这些年对财富的感觉也在变。总体增量少了，大家感受就不-20240622122653

10 月前

波元霸 · 恐怕要射了！

8 月前

铝途 · 国家电投铝电公司以绿色转型引领企业高质量发展

4 月前

何夕 · 赞同。学文科就应该是“上学卷死+毕业即失业”，谁叫你们去学呢//-20250110124435

3 月前

华商报 · 突然失控！男子狂发190个红包！"我账户里有100多万元…"

2 月前