专栏名称: 关于NLP那些你不知道的事

整理自然语言处理、推荐系统、搜索引擎等AI领域的入门笔记，论文学习笔记和面试资料（关于NLP那些你不知道的事、关于推荐系统那些你不知道的事、NLP百面百搭、推荐系统百面百搭、搜索引擎百面百搭）

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

DeepSeek-R1 蒸馏前后 Qwen Tokenizer 的变化

关于NLP那些你不知道的事 · 公众号 · · 2025-02-17 07:00

文章预览

DeepSeek-R1 蒸馏前后 Qwen Tokenizer 的变化作者：木尧原文： https://zhuanlan.zhihu.com/p/23524663411 根据 DeepSeek-R1 的论文，DeepSeek-R1-Distill-Qwen-32B 是基于 Qwen2.5-32B 预训练 base 模型进行蒸馏 SFT 训练，而不是基于 Qwen2.5-32B-Instruct 的 chat 模型。 Qwen2.5-32B ： https:// modelscope.cn/models/Qw en/Qwen2.5-32B Qwen2.5-32B-Instruct ： https:// modelscope.cn/models/Qw en/Qwen2.5-32B-Instruct DeepSeek-R1-Distill-Qwen-32B ： https:// modelscope.cn/models/de epseek-ai/DeepSeek-R1-Distill-Qwen-32B 接下来对比这三个开源模型的几个主要配置文件，并分析 tokenizer 的异同，最后实测 chat 模版及 special token。配置对比：config.json 结论：相比 base 模型，DeepSeek 蒸馏前后无变化。配置对比：tokenizer_config.json 结论：蒸馏前后，tokenizer 配置文件变化较大，如图。更改了 bos_token、eos_token、pad_token tokenizer_class 由 Qwen2Tokenizer 更改为 LlamaToken ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

上海发布 · 周末晴-雨-晴，此番降温下周一收尾，下周五或突破18度

昨天

东方网 · 上海幼儿园要实行免费教育了？最新回应→

昨天

乐游上海 · 上海唯一站！百老汇原版音乐剧即将回归

昨天

上海发布 · 明天开始！新一轮消费券就按攻略这么领→

昨天

上海发布 · 【提示】求职警惕这些“坑”！市人社局公布6起侵害劳动者就业权益典型案例

3 天前

飞桨PaddlePaddle · AI帮你劝退那些你不想要的相亲对象

9 月前

新浪科技 · 【#我国拟提高电动乘用车电耗门槛#：遏制车辆大型化发展趋势，#我-20240821140034

6 月前