专栏名称: 深度学习自然语言处理

一个从大三就接触NLP的小小NLPer，本公众号每天记录自己的一点一滴，每篇文章最后也有托福单词等新知识，学技术同时，也一点一滴积累额外的知识。期待与你在知识的殿堂与你相遇！

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

RWKV-7：极先进的大模型架构，长文本能力极强

深度学习自然语言处理 · 公众号 · · 2024-12-22 17:16

文章预览

RWKV-7 是极先进的最新大模型架构，超越 attention / linear attention 范式，拥有强大的 in-context-learning（上下文学习）能力，可真正持续学习，在保持 100% RNN 的同时，拥有极强的长文本能力。 RWKV-7 架构性能表现 RWKV-7 的大海捞针测试 RWKV-7-World 0.1B（L12-D768）在 ctx 4k 预训练 1T tokens（world-v2.8），无需任何微调，即可完美通过 ctx 16k 的大海捞针。且 world 系列模型支持全球 100+ 种语言和代码。 niah-of-rwkv-7-world-0.1b RWKV-7-Pile 0.4B（L24-D1024）在 ctx 4k 预训练 0.3T tokens（pile），无需任何微调，即可完美通过 ctx 16k 的大海捞针。 niah-of-rwkv-7-pile-0.4b RWKV-7 的长文本外推测试 RWKV-7-Pile 系列模型，在 ctx 4k 预训练 0.3T tokens（pile），无需任何微调，即可自动外推到 ctx 32k+ 长度，且 ppl 随 ctx 增加持续稳步下降，说明还远未达到它的外推极限。 RWKV-7 外推到 ctx 32k+ 下面是 RWKV-7 与 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博