专栏名称: 包包算法笔记
数据挖掘、机器学习、深度学习、Kaggle竞赛分享与交流。
目录
相关文章推荐
今天看啥  ›  专栏  ›  包包算法笔记

LLama 405B 技术报告解读

包包算法笔记  · 公众号  ·  · 2024-07-24 21:31

文章预览

果然传的消息都是真的,meta在24号凌晨发布了llama 3的405B版本,这次还是做一个技术报告解读。 值得一提的是,在技术报告的开头,meta特意强调了一个 Managing complexity ,大意是管控复杂度。 为什么没用MoE却弄个405B的dense?为什么没用PPO只用DPO? meta给的解释是:Managing complexity,大意就是这样简单吧... 评测结果如下,这个结果跟当初网上传的那个版本还是有一定出入的,没有到摁着GPT4o锤的程度。 况且,根据GPT4o的速度来看,参数量要远远小于一个405B的dense,高下立判。不过这个无可厚非,毕竟GPT4也挺慢的 虽然如此,但是llama3 405B中间有许多实用的trick还是值得我们学习的,整个的画风有点像打比赛刷榜那种程度,做的很细,抠每一个上分点,那么我们来总结下一些亮点吧。 一、预训练 数据部分 PII数据(个人隐私数据)清洗、去重、去黄、做模 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览