专栏名称: 江大白
专业有趣的AI内容平台,关注后回复【算法】,获取45家大厂的《人工智能算法岗江湖武林秘籍》
今天看啥  ›  专栏  ›  江大白

两万字长文,LLama3 405B 技术报告详细解读

江大白  · 公众号  ·  · 2024-07-26 08:00

文章预览

以下 文 章来源于微信公众号:包包算法笔记 作者:包包闭关修炼 链接:https://mp.weixin.qq.com/s/8RYqgfuYga0YU8H8XqNNOA 本文仅用于学术分享,如有侵权,请联系 后 台作删文处理 导读 近年来大模型的发展可谓是日新月异。24日凌晨meta发布了最新版本的llama 3的405B版本,那么新版本有哪些不同和提升呢。本文对 ll ama  3 的 405B版本技术报告做了详细解读,希望能够帮助大家快速了解 ll ama  3。 果然传的消息都是真的,meta在24号凌晨发布了llama 3的405B版本,这次还是做一个技术报告解读。 值得一提的是,在技术报告的开头,meta特意强调了一个  Managing complexity ,大意是管控复杂度。 为什么没用MoE却弄个405B的dense?为什么没用PPO只用DPO? meta给的解释是:Managing complexity,大意就是这样简单吧... 评测结果如下,这个结果跟当初网上传的那个版本还是有一定出入的 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览