【国盛通信·深度】“合成数据+强化学习”：大模型进化的新范式

吉时通信 · 公众号 · · 2024-09-20 09:11

文章预览

摘要当地时间9月12日，OpenAI发布新模型系列o1（代号“草莓”），该模型的特点主要是在给出推理结果前，花更多时间“思考”，产生较长内部思维链，在解决科学、数学、代码等类问题的表现更好。o1-preview每百万token输入15美元，每百万输出token60美元，o1-mini相对便宜，每百万token输入3美元，每百万token输出12美元。目前ChatGPT Plus和Team用户可以在模型选取器中手动选择，o1-preview每周限制30条消息，o1-mini每周限制50条消息。 o1亮点一：或为OpenAI新模型“Orin”生成合成数据。据The Information，o1或为OpenAI新模型“Orin”生成合成数据。无独有偶，我们注意到，OpenAI创始团队出走创办的Anthropic——OpenAI的有力竞争对手，2024年6月发布了大模型Claude 3.5 Sonnet，该模型使用了合成数据，在多个测试中的表现优于GPT4o。我们发现，在人类生成的数据或将耗尽之际， ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博