专栏名称: 新智元
智能+中国主平台,致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展,关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响,领航中国新智能时代。
今天看啥  ›  专栏  ›  新智元

小模型指导大模型!田渊栋等爆锤蒸馏:新方法更高效、更透明、更可控

新智元  · 公众号  · AI  · 2025-03-02 12:17
    

文章预览

   新智元报道   编辑:KingHZ 【新智元导读】 基于连续概念,Meta团队新研究提出了超越「下一个token预测」语言建模新范式。更加重要的是,新方法不仅能增强原有的范式,而且比起知识蒸馏,数据量减少20%,甚至能从小模型提取概念指导更大的模型! 「下一个token预测」(next token prediction,NTP)是大语言模型(LLMs)不断取得突破的核心技术。 但这种依赖tokenization的方法,导致LLM「严重偏科」。 比如, Karpathy发现一个表情包相当于53个token ! 关注AI的可能也知道GPT-4o不会数字母,不知道Strawberray中有几个字母「r」。 为了解决此类问题,最近的研究探讨了超越token级信号的方法,利用更丰富的信息来训练模型。 比如说,一次性预测多个token;在下一个token预测之前增强输入,加入丰富的信号;或用连续的潜在表示替代离散的语言标记,提高推理效 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览