专栏名称: AI工程化
专注于AI领域(大模型、MLOPS/LLMOPS 、AI应用开发、AI infra)前沿产品技术信息和实践经验分享。
今天看啥  ›  专栏  ›  AI工程化

KTransformers:让DeepSeek加速28倍的国产推理框架

AI工程化  · 公众号  ·  · 2025-02-14 07:05
    

文章预览

今天介绍一款国产的推理加速框架,它让deepseek的推理速度又上一个档次。 它就是由清华大学 MADSys 团队和 Approaching.AI 共同开发一个新项目KTransformers(Quick Transformers),它是一个基于 Python 的框架,专注于提升 Hugging Face Transformers 的使用体验。 它通过先进的内核优化和并行策略,显著提高 LLM 的推理速度。 KTransformers 具有高度的灵活性和可扩展性,允许用户通过简单的代码注入,集成优化的模块,并提供 Transformers 兼容的接口、兼容 OpenAI 和 Ollama 的 RESTful API,以及一个简化的 ChatGPT 风格的 Web UI。 KTransformers 的性能优化基本囊括了目前主流的优化手段,包括: 内核优化:通过注入优化的内核(如 Llamafile 和 Marlin),替换 PyTorch 原生模块,从而提高计算效率。这些内核针对特定硬件和数据类型进行了深度优化。 量化技术:支持模型量化,将模型权重从 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览