整理自然语言处理、推荐系统、搜索引擎等AI领域的入门笔记,论文学习笔记和面试资料(关于NLP那些你不知道的事、关于推荐系统那些你不知道的事、NLP百面百搭、推荐系统百面百搭、搜索引擎百面百搭)
今天看啥  ›  专栏  ›  关于NLP那些你不知道的事

DeepSeek-R1 蒸馏前后 Qwen Tokenizer 的变化

关于NLP那些你不知道的事  · 公众号  ·  · 2025-02-17 07:00
    

文章预览

DeepSeek-R1 蒸馏前后 Qwen Tokenizer 的变化 作者:木尧 原文: https://zhuanlan.zhihu.com/p/23524663411 根据 DeepSeek-R1 的论文,DeepSeek-R1-Distill-Qwen-32B 是基于 Qwen2.5-32B 预训练 base 模型进行蒸馏 SFT 训练,而不是基于 Qwen2.5-32B-Instruct 的 chat 模型。 Qwen2.5-32B : https:// modelscope.cn/models/Qw en/Qwen2.5-32B Qwen2.5-32B-Instruct : https:// modelscope.cn/models/Qw en/Qwen2.5-32B-Instruct DeepSeek-R1-Distill-Qwen-32B : https:// modelscope.cn/models/de epseek-ai/DeepSeek-R1-Distill-Qwen-32B 接下来对比这三个开源模型的几个主要配置文件,并分析 tokenizer 的异同,最后实测 chat 模版及 special token。 配置对比:config.json 结论:相比 base 模型,DeepSeek 蒸馏前后无变化。 配置对比:tokenizer_config.json 结论:蒸馏前后,tokenizer 配置文件变化较大,如图。 更改了 bos_token、eos_token、pad_token tokenizer_class 由  Qwen2Tokenizer  更改为  LlamaToken ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览