AI能自主出“竞赛题”了！港大&蚂蚁让大模型学会生成难题，水平已接近AIME

量子位 · 公众号 · AI · 2025-03-14 15:22

文章预览

赵学亮投稿量子位 | 公众号 QbitAI 大模型架构研究进展太快，数据却快要不够用了，其中问题数据又尤其缺乏。为此，港大和蚂蚁的研究人员反向利用思维链，提出了PromptCoT方法，并基于Llama3.1-8B训练了一个问题生成模型。实验结果表明，合成的问题难度较开源数据和已有算法有显著提升，接近了AIME水平。研究团队利用问题生成模型构造了400k SFT数据。基于这份数据，团队训练了DeepSeek-R1-Distill-Qwen-7B模型，在MATH-500、AIME 2024以及AIME 2025上的表现均超过了32B的s1模型。并且相比DeepScaleR-1.5B-Preview，PromptCoT-DS-1.5B仅用1/15的GPU hours即可达到相似的结果。所有模型和数据均已开源。社区可以根据自己需求合成任意问题数据，用于模型蒸馏或RL训练。大模型训练缺乏“难题” 当大模型原理“越辩越明”、开源代码越来越多时，数据的不足反而成了限制 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

财联社AI daily · 大厂掀起AI人才争夺战

23 小时前

财联社AI daily · 大厂掀起AI人才争夺战

23 小时前

量子位 · DeepSeek引爆「万物皆可AI」时代，20余位大咖分析行业痛点，万字梳理干货在此

昨天

爱可可-爱生活 · 恭喜@爱生活爱家庭的Noor 等3名用户获得【《爱因斯坦学习法》-20250417120209

昨天

机器之心 · 本周日不见不散！ICLR 2025北京论文分享会最后报名了

昨天

爱可可-爱生活 · 【CS229T/STAT231: Statistical Lea-20250417081409

昨天

学术会议资讯 · 【征稿】“风格的概念:艺术与科学中的认识论”研讨会

8 月前

骑桶人的桶 · 外嬷落，万物生

7 月前

CG世界 · 基于多视频的3D面部重建与实时跟踪技术

6 月前