完整教程 | 完整的671B MoE DeepSeek R1怎么塞进本地化！

机器学习初学者 · 公众号 · · 2025-02-06 11:49

文章预览

来源 | 机器之心本文的作者是李锡涵（ Xihan Li）。他是伦敦大学学院（UCL）计算机系博士研究生，谷歌开发者专家，主要研究方向为学习优化，在 NeurIPS、ICLR、AAMAS、CIKM 等会议发表过学术论文，Circuit Transformer 作者，图书《简明的 TensorFlow 2》（https://tf.wiki）作者。过年这几天， DeepSeek 算是彻底破圈了，火遍大江南北，火到人尽皆知。虽然网络版和 APP 版已经足够好用，但把模型部署到本地，才能真正实现独家定制，让 DeepSeek R1 的深度思考「以你为主，为你所用」。关于本地部署，大多数人使用的是蒸馏后的8B/32B/70B版本，本质是微调后的Llama或Qwen模型，并不能完全发挥出DeepSeek R1的实力。然而，完整的671B MoE模型也可以通过针对性的量化技术压缩体积，从而大幅降低本地部署门槛，乃至在消费级硬件（如单台Mac Studio）上运行。那么，如何 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博