一个从大三就接触NLP的小小NLPer,本公众号每天记录自己的一点一滴,每篇文章最后也有托福单词等新知识,学技术同时,也一点一滴积累额外的知识。期待与你在知识的殿堂与你相遇!
今天看啥  ›  专栏  ›  深度学习自然语言处理

RWKV-7:极先进的大模型架构,长文本能力极强

深度学习自然语言处理  · 公众号  ·  · 2024-12-22 17:16
    

文章预览

RWKV-7 是极先进的最新大模型架构,超越 attention / linear attention 范式,拥有强大的 in-context-learning(上下文学习)能力,可真正持续学习,在保持 100% RNN 的同时,拥有极强的长文本能力。 RWKV-7 架构性能表现 RWKV-7 的大海捞针测试 RWKV-7-World 0.1B(L12-D768)在 ctx 4k 预训练 1T tokens(world-v2.8),无需任何微调,即可完美通过 ctx 16k 的大海捞针。且 world 系列模型支持全球 100+ 种语言和代码。 niah-of-rwkv-7-world-0.1b RWKV-7-Pile 0.4B(L24-D1024)在 ctx 4k 预训练 0.3T tokens(pile),无需任何微调,即可完美通过 ctx 16k 的大海捞针。 niah-of-rwkv-7-pile-0.4b RWKV-7 的长文本外推测试 RWKV-7-Pile 系列模型,在 ctx 4k 预训练 0.3T tokens(pile),无需任何微调,即可自动外推到 ctx 32k+ 长度,且 ppl 随 ctx 增加持续稳步下降,说明还远未达到它的外推极限。 RWKV-7 外推到 ctx 32k+ 下面是 RWKV-7 与 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览