专栏名称: AI工程化
专注于AI领域(大模型、MLOPS/LLMOPS 、AI应用开发、AI infra)前沿产品技术信息和实践经验分享。
今天看啥  ›  专栏  ›  AI工程化

Google 发布Griffin架构:超越 Transformer

AI工程化  · 公众号  ·  · 2024-05-20 18:47
    

文章预览

Google 最近发布的 Griffin 架构性能优于 transformers。🔥 📌 Hawk(本文提出的新架构之一)在下游任务中的表现超过了 Mamba,而 Griffin 在训练所用的 token 数量少于六倍的情况下,其性能与 Llama-2 相当。 📌 Griffin 可以在训练期间未见过的显著更长序列上进行推理。 📌 在多种尺寸下,Griffin 在 MMLU 得分以及许多基准测试的平均得分上都优于 transformers 基准分数,并在受控测试中表现出色。该架构还在推理长上下文时提供了更快的推理速度和更低的内存使用效率优势。 Huggingface 今天发布的 2B 版本: 📌 仅使用 300B token 训练的原型就能实现这一目标,前景相当不错。 Transformers 的主要问题是由于全局注意力的二次复杂性,它们难以高效扩展到长序列。此外,随着序列长度的增加,Key-Value (KV) 缓存的线性增长使得 Transformers 在推理时变慢。尽管多查询注意力 ( ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览