文章预览
卖不完了!!!快帮我们一下! 在2025年的第一天,来自微软的一篇关于检测和纠正临床笔记中医疗错误的测试基准MEDEC的研究,引发了非常大的关注,因 为微软似乎又一次泄露了主流的大模型到底参数是多大。 去年也有一次类似的泄密,泄露了GPT3.5-turbo实际上只有20Bn的参数规模。 按照这篇文章,大概几个主流的参数模型大小如下 Claude 3.5 Sonnet(2024-10-22),~175B ChatGPT,~175B(其实就是最早的GPT3.5) GPT-4,约1.76T GPT-4o,~200B GPT-4o-mini(gpt-4o-2024-05-13)只有8B 最新的o1-mini(o1-mini-2024-09-12)仅100B o1-preview(o1-preview-2024-09-12)~300B 当然这些参数没有得到官方的认证,有些数据也看起来比较扯,不过笔者觉得大概的趋势还是可以参考的。 最早的GPT4其实是靠暴力加大参数的方式做出来的,而4o就在4的基础上大大减少了参数量,也做的更加的稀疏(expert可能有
………………………………