专栏名称: 斌叔OKmath
橙旭园CEO 教育博主 教育部双创优秀导师。前微软员工。橙旭园儿童编程创始人。
今天看啥  ›  专栏  ›  斌叔OKmath

网页链接微软推出的MInference,将 LLM处理百万上下文-20240714201536

斌叔OKmath  · 微博  ·  · 2024-07-14 20:15
    

文章预览

2024-07-14 20:15 本条微博链接 网页链接 微软推出的MInference,将 LLM处理百万上下文时间提速 10 倍! 1、MInference是一种稀疏计算方法,可以加速长序列处理的预填充 2、可以直接应用于现有的LLM,不需要预训练或额外微调 3、同时在多个基准InfiniteBench、RULER、PG-19、Needle In A Haystack以及LLaMA-3-1M、Yi-200K、GLM-4-1M、Phi-3-128K、Qwen2-128K等不同模型上测试,MInference在A100上实现了10倍的推理速度提升,同时保持了准确性 github: 网页链接 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览