文章预览
太长不看版 : 开源的模型大小为9B和27B,还有一个小的2.6B玩具。 1.3T token训练(比起最近开源的模型,这个数量不算多。) RLHF中RM模型,作者强调比SFT的模型更大,应该是想要寻求一定的泛化而不仅仅是安全。 注意力机制上使用了滑动窗口和全局注意力结合。 用了一个叫Logit soft-capping的技术,给logit输出值的范围做了一个限制,目测有利于训练的稳定性。 用 RMSNorm做了Post-norm and pre-norm。 用了模型蒸馏和模型融合。 GQA。 竞技场评估结果(不算出色,但同等大小的还不错) 技术报告原文:https://storage.googleapis.com/deepmind-media/gemma/gemma-2-report.pdf
blog原文:https://blog.google/technology/developers/google-gemma-2/ 详细版: 引言 大型语言模型(LLMs)已展现出在语言理解、生成和推理方面的强劲能力。扩大规模是实现这些最新进展的关键,许多新的能力只有在模型规
………………………………