文章预览
果然传的消息都是真的,meta在24号凌晨发布了llama 3的405B版本,这次还是做一个技术报告解读。 值得一提的是,在技术报告的开头,meta特意强调了一个 Managing complexity ,大意是管控复杂度。 为什么没用MoE却弄个405B的dense?为什么没用PPO只用DPO? meta给的解释是:Managing complexity,大意就是这样简单吧... 评测结果如下,这个结果跟当初网上传的那个版本还是有一定出入的,没有到摁着GPT4o锤的程度。 况且,根据GPT4o的速度来看,参数量要远远小于一个405B的dense,高下立判。不过这个无可厚非,毕竟GPT4也挺慢的 虽然如此,但是llama3 405B中间有许多实用的trick还是值得我们学习的,整个的画风有点像打比赛刷榜那种程度,做的很细,抠每一个上分点,那么我们来总结下一些亮点吧。 一、预训练 数据部分 PII数据(个人隐私数据)清洗、去重、去黄、做模
………………………………