专栏名称: 包包算法笔记
数据挖掘、机器学习、深度学习、Kaggle竞赛分享与交流。
今天看啥  ›  专栏  ›  包包算法笔记

谷歌Gemma-2大模型开源|技术报告解读

包包算法笔记  · 公众号  ·  · 2024-06-28 10:00

文章预览

太长不看版 : 开源的模型大小为9B和27B,还有一个小的2.6B玩具。 1.3T token训练(比起最近开源的模型,这个数量不算多。) RLHF中RM模型,作者强调比SFT的模型更大,应该是想要寻求一定的泛化而不仅仅是安全。 注意力机制上使用了滑动窗口和全局注意力结合。 用了一个叫Logit soft-capping的技术,给logit输出值的范围做了一个限制,目测有利于训练的稳定性。 用 RMSNorm做了Post-norm and pre-norm。 用了模型蒸馏和模型融合。 GQA。 竞技场评估结果(不算出色,但同等大小的还不错) 技术报告原文:https://storage.googleapis.com/deepmind-media/gemma/gemma-2-report.pdf blog原文:https://blog.google/technology/developers/google-gemma-2/ 详细版: 引言 大型语言模型(LLMs)已展现出在语言理解、生成和推理方面的强劲能力。扩大规模是实现这些最新进展的关键,许多新的能力只有在模型规 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览