专栏名称: AIGC开放社区
专注AIGC(生成式人工智能)领域的专业社区,关注GPT-4、百度文心一言、华为盘古等大语言模型(LLM)的发展应用和落地,以及国内LLM的发展和市场研究,社区秉承共建、共享、开放的理念,提供对社区会员有价值的商业化思路和服务。
今天看啥  ›  专栏  ›  AIGC开放社区

谷歌开源Gemma Scope,更好解释大模型工作原理

AIGC开放社区  · 公众号  ·  · 2024-08-02 07:55

文章预览

专注AIGC领域的专业社区,关注微软 、百度文心一言、讯飞星火等大语言模型(LLM)的发展和 应用 落地,聚焦LLM的市场研究和AIGC开发者生态,欢迎关注! 随着多模态大模型的出现,内部神经网络参数少则几百亿,多则上千亿甚至过万亿,使得开发人员很难控制其输出内容经常会出现各种“幻觉”,就是一本正经的胡说八道。 虽然稀疏自编码器(简称“SAE”)是解决这些难题的主流方法,可以学习神经网络潜在表示的稀疏分解,将其分解为可解释的词、短语等特征,能有效解释大模型的工作原理与机制。但普通的SAE质量难以保证,并且训练成本非常高。 所以,谷歌DeepMind针对其开源的Gemma 2模型训练了特定的SAE——Gemma Scope。 Gemma Scope开源地址:https://huggingface.co/google/gemma-scope Gemma 2 2B开源地址:https://huggingface.co/collections/google/gemma-2-2b-release-66a20f3796 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览