文章预览
将 ScienceAI 设为 星标 第一时间掌握 新鲜的 AI for Science 资讯 编辑 | 紫罗 大语言模型 (LLM) 在各个领域和任务中都表现出了卓越的能力,突破了我们在学习和认知方面的知识界限。 最新模型 OpenAI 的 o1 脱颖而出,成为第一个使用思维链 (CoT) 技术和强化学习的 LLM。 虽然 o1 在一般任务中表现良好,但它在医学等专业领域的表现仍然未知。目前医学 LLM 的基准通常集中在一定范围内,例如知识、推理或安全,这使得在复杂的医学任务中对这些模型进行全面评估变得复杂。 来自加州大学圣克鲁斯分校、爱丁堡大学和美国国立卫生研究院的研究人员 评估了 OpenAI 的 o1 模型在医学任务中的表现, 评估了 37 个医学数据集(包括两个新的 QA 基准)的理解、推理和多语言性。 分析表明,LLM 的推理能力增强可能会有利于其理解各种医疗指令和推理复杂临床场景
………………………………