文章预览
2024-07-12 10:31
本条微博链接
新的 Transformer 加速技术 FlashAttention-3 发布。 LLM 推理速度和成本又要大幅下降! FlashAttention-3 相较于之前的 FlashAttention 在各个方面都有非常大的提升: 更高效的 GPU 利用率:大型语言模型的训练和运行 (LLMs) 比以前的版本快1.5-2 倍。 较低精度下的更好性能:FlashAttention-3 可以使用较低精度的数字 (FP8),同时保持准确性。 能够在 LLMs 中使用更长的上下文:通过加速注意力机制,FlashAttention-3 使 AI
………………………………