文章预览
DeepSeek-R1 蒸馏前后 Qwen Tokenizer 的变化 作者:木尧 原文: https://zhuanlan.zhihu.com/p/23524663411 根据 DeepSeek-R1 的论文,DeepSeek-R1-Distill-Qwen-32B 是基于 Qwen2.5-32B 预训练 base 模型进行蒸馏 SFT 训练,而不是基于 Qwen2.5-32B-Instruct 的 chat 模型。 Qwen2.5-32B : https:// modelscope.cn/models/Qw en/Qwen2.5-32B Qwen2.5-32B-Instruct : https:// modelscope.cn/models/Qw en/Qwen2.5-32B-Instruct DeepSeek-R1-Distill-Qwen-32B : https:// modelscope.cn/models/de epseek-ai/DeepSeek-R1-Distill-Qwen-32B 接下来对比这三个开源模型的几个主要配置文件,并分析 tokenizer 的异同,最后实测 chat 模版及 special token。 配置对比:config.json 结论:相比 base 模型,DeepSeek 蒸馏前后无变化。 配置对比:tokenizer_config.json 结论:蒸馏前后,tokenizer 配置文件变化较大,如图。 更改了 bos_token、eos_token、pad_token tokenizer_class 由 Qwen2Tokenizer 更改为 LlamaToken
………………………………