专栏名称: AINLP

关注AI、NLP相关技术，关注算法研发职位和课程；回复"文章"获取历史信息；双语聊天机器人"无名"；中英翻译请输入：翻译翻译内容；自动对联，请输入：上联上联内容；调戏夸夸聊天机器人，请求夸、求赞；查询相似词，请输入: 相似词词条

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

LLama 405B 技术报告解读

AINLP · 公众号 · · 2024-07-25 21:11

文章预览

果然传的消息都是真的，meta在24号凌晨发布了llama 3的405B版本，这次还是做一个技术报告解读。值得一提的是，在技术报告的开头，meta特意强调了一个 Managing complexity ，大意是管控复杂度。为什么没用MoE却弄个405B的dense？为什么没用PPO只用DPO？ meta给的解释是：Managing complexity，大意就是这样简单吧... 评测结果如下，这个结果跟当初网上传的那个版本还是有一定出入的，没有到摁着GPT4o锤的程度。况且，根据GPT4o的速度来看，参数量要远远小于一个405B的dense，高下立判。不过这个无可厚非，毕竟GPT4也挺慢的虽然如此，但是llama3 405B中间有许多实用的trick还是值得我们学习的，整个的画风有点像打比赛刷榜那种程度，做的很细，抠每一个上分点，那么我们来总结下一些亮点吧。一、预训练数据部分 PII数据（个人隐私数据）清洗、去重、去黄、做模 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博