专栏名称: AIGC开放社区

专注AIGC（生成式人工智能）领域的专业社区，关注GPT-4、百度文心一言、华为盘古等大语言模型（LLM）的发展应用和落地，以及国内LLM的发展和市场研究，社区秉承共建、共享、开放的理念，提供对社区会员有价值的商业化思路和服务。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

谷歌推出TransformerFAM架构，以更低的消耗处理长序列文本

AIGC开放社区 · 公众号 · · 2024-05-24 07:57

文章预览

专注AIGC领域的专业社区，关注微软、百度文心一言、讯飞星火等大语言模型（LLM）的发展和应用落地，聚焦LLM的市场研究和AIGC开发者生态，欢迎关注！ Transformer对大模型界的影响力不言而喻，ChatGPT、Sora、Stable Difusion等知名模型皆使用了该架构。但有一个很明显的缺点，其注意力复杂度的二次方增长在处理书籍、PDF等超长文档时会显著增加算力负担。虽然会通过滑动窗口注意力和稀疏注意力等技术来解决这一问题,在处理极长序列时仍存在局限性。因此，谷歌的研究人员提出了全新架构TransformerFAM，可以无缝与预训练模型集成,并通过LoRA进行少量精调从而大幅度提升模型性能。研究人员在1B、8B和24B三种参数的Flan-PaLM大语言模型上评估了Transformer FAM的性能。实验结果显示,与Transformer架构相比,TransformerFAM在长序列任务上取得了好的能力并且资源消 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博