微软论文意外「走光」，OpenAI参数全泄密！GPT-4o仅200B，o1 300B

机器学习研究组订阅 · 公众号 · AI · 2025-01-02 18:31

主要观点总结

这篇文章主要介绍了微软和华盛顿大学团队在医学领域发布的一篇论文，该论文发布了一个具有里程碑意义的评估基准MEDEC1，专为临床笔记医疗错误检测和纠正而设计。文章讲述了医疗领域自动错误检测与纠正的重要性以及现有的挑战，并对不同的领先的LLM（大型预训练模型）进行了实验。实验结果表明，虽然最新的大型语言模型在医疗错误检测和纠正方面表现出不俗的能力，但与人类医生相比仍存在一定的差距。文章还介绍了MEDEC数据集以及参与实验的各种语言模型，并详细分析了实验结果。

关键观点总结

关键观点1: 论文发布了一个评估基准MEDEC1，专为临床笔记医疗错误检测和纠正而设计。

这个评估基准涵盖了五种类型的错误，包括诊断、管理、治疗、药物治疗和致病因子。

关键观点2: MEDEC数据集包含了3,848篇来自不同医学专业领域的临床文本，是首个公开可用的临床笔记中自动错误检测和纠正的基准。

数据集由8位医学标注员完成，包含了通过两种方法之一创建的错误。

关键观点3: 实验对不同的LLM进行了测试，包括Claude 3.5 Sonnet、o1-preview、Gemini 2.0 Flash等。

结果显示，虽然LLM在错误检测和纠正方面表现出良好的性能，但与人类医生相比仍有一定的差距。

关键观点4: 文章分析了造成这一差距的原因，包括LLM预训练中相关数据的可能性较低、分析并纠正现有非LLM生成的文本的难度较高、以及模型在捕捉医学文本中的同义词和相似性方面的局限性等。

文章预览

谁能想到，微软在一篇医学领域的论文里，竟然把OpenAI模型的参数全「曝光」了！ GPT-4参数约1.76万亿 GPT-4o参数约2000亿 GPT-4o mini参数约80亿 o1-preview参数约3000亿 o1-mini参数约1000亿 Claude 3.5 Sonnet参数约1750亿研究人员：参数均为估算值让所有人难以置信的是，GPT-4o系列的参数如此少，mini版甚至只有8B。有网友猜测，4o mini是一个大约有40B参数的MoE模型，其中激活参数为8B。因为，他发现4o mini明显比8B模型学到了更多的知识，同时间运行速度很快。此外，由于GPT-4o是MoE架构，所以OpenAI可能在mini版本上使用了相同的架构。另有网友惊讶地表示，Claude 3.5 Sonnet参数竟等同于GPT-3 davinci。这篇来自微软、华盛顿大学团队的论文中，发布了一个具有里程碑意义的评估基准——MEDEC1，专为临床笔记医疗错误检测和纠正而设计。论文地址：https://arxiv.org/abs/2412.19260 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博