谷歌Gemma-2大模型开源｜技术报告解读

包包算法笔记 · 公众号 · · 2024-06-28 10:00

文章预览

太长不看版：开源的模型大小为9B和27B，还有一个小的2.6B玩具。 1.3T token训练（比起最近开源的模型，这个数量不算多。） RLHF中RM模型，作者强调比SFT的模型更大，应该是想要寻求一定的泛化而不仅仅是安全。注意力机制上使用了滑动窗口和全局注意力结合。用了一个叫Logit soft-capping的技术，给logit输出值的范围做了一个限制，目测有利于训练的稳定性。用 RMSNorm做了Post-norm and pre-norm。用了模型蒸馏和模型融合。 GQA。竞技场评估结果（不算出色，但同等大小的还不错）技术报告原文：https://storage.googleapis.com/deepmind-media/gemma/gemma-2-report.pdf blog原文：https://blog.google/technology/developers/google-gemma-2/ 详细版：引言大型语言模型（LLMs）已展现出在语言理解、生成和推理方面的强劲能力。扩大规模是实现这些最新进展的关键，许多新的能力只有在模型规 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博