专栏名称: 新智元

智能+中国主平台，致力于推动中国从互联网+迈向智能+新纪元。重点关注人工智能、机器人等前沿领域发展，关注人机融合、人工智能和机器人革命对人类社会与文明进化的影响，领航中国新智能时代。

我也要提交微信公众号

今天看啥

公众号rss, 微信rss, 微信公众号rss订阅, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词RSS订阅方法

知网期刊RSS订阅方法

小模型指导大模型！田渊栋等爆锤蒸馏：新方法更高效、更透明、更可控

新智元 · 公众号 · AI · 2025-03-02 12:17

文章预览

新智元报道编辑：KingHZ 【新智元导读】基于连续概念，Meta团队新研究提出了超越「下一个token预测」语言建模新范式。更加重要的是，新方法不仅能增强原有的范式，而且比起知识蒸馏，数据量减少20%，甚至能从小模型提取概念指导更大的模型！「下一个token预测」（next token prediction，NTP）是大语言模型（LLMs）不断取得突破的核心技术。但这种依赖tokenization的方法，导致LLM「严重偏科」。比如， Karpathy发现一个表情包相当于53个token ! 关注AI的可能也知道GPT-4o不会数字母，不知道Strawberray中有几个字母「r」。为了解决此类问题，最近的研究探讨了超越token级信号的方法，利用更丰富的信息来训练模型。比如说，一次性预测多个token；在下一个token预测之前增强输入，加入丰富的信号；或用连续的潜在表示替代离散的语言标记，提高推理效 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

量子位 · 首份空间智能研究报告来了！一文全面获得空间智能认知、要素、玩家图谱

14 小时前

爱可可-爱生活 · 今日推介(第1752期)：“任意到任意”生成任务的符号表示框架、-20250426061356

18 小时前

AI前线 · 英伟达停止运营Lepton AI，贾扬清回应：不是人才收购

昨天

新智元 · 微软重磅官宣：「AI智能体」同事连夜上线！预言25年人类同事成稀有物种

2 天前

宝玉xp · AI 根据你上传的照片画排版肖像画（Typography Por-20250423235747

3 天前

苏州本地宝 · 苏州首套房认定按区划分？买新房有何补贴？官方解答来了！

10 月前

IT报 · OpenAI豪掷30亿美元收购AI编程新贵Windsurf？硅谷再掀并购狂潮

5 天前