专栏名称: AINLP

关注AI、NLP相关技术，关注算法研发职位和课程；回复"文章"获取历史信息；双语聊天机器人"无名"；中英翻译请输入：翻译翻译内容；自动对联，请输入：上联上联内容；调戏夸夸聊天机器人，请求夸、求赞；查询相似词，请输入: 相似词词条

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

大模型的基本功

AINLP · 公众号 · · 2024-08-29 23:17

文章预览

Author: [ybq] Link: [https://zhuanlan.zhihu.com/p/716344766] 这篇文章给大家推荐几个大模型的练手程序，也就是所谓的“基本功”。先问个问题，除了 transformer、rope、swiglu、rms_norm，大家觉着大模型的基本功都有哪些呢？flash_attention 的原理？megatron 的各种 parallel 策略？量化和推理加速技术？cuda编程？怎么说呢，这些“有技术含量的大模型的核心技术”确实很重要，但我个人还是觉着大多数人在实际工作中并不需要完全理解它们。因为它们追求的是模型性能的极限优化，对我们做个简单的 SFT、PPO 并无太大助力。往往我们的需求只是使用它们，而不是去优化它们。所以，我会给出一些我个人认为工作中很常用，但却“没有技术含量”的一些基本功（刷面经的同学可以不用看了哈，我推荐的基本功面试官不会考的）。 trans_XX_to_llama.py 在开源社区，llama 的网 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

老子道德经 · 真正内心强大的女人，一辈子都有“4不管”，越不管越好命

3 天前

老子道德经 · 真正内心强大的女人，一辈子都有“4不管”，越不管越好命

3 天前

财金新天地 · 靠！卫生巾品牌集体塌房！这谁能忍？

4 天前

财金新天地 · 靠！卫生巾品牌集体塌房！这谁能忍？

4 天前

彬彬有理 · 倒反天罡！重庆男子“花小三的钱养老婆”事件，网友：笑不活了，更看不懂了……

4 天前

爸妈领域 · 50岁退休女性：学会一切从简后，我开始活的从容自在了

5 天前

爸妈领域 · 50岁退休女性：学会一切从简后，我开始活的从容自在了

5 天前

人工智能学派 · AI算力专题：大算力时代必经之路，关注COWOS及HBM投资链

4 月前

199IT互联网数据中心 · 2024年韩国旅游业的经济贡献将增长13.6%

4 月前

川大就业 · 校园招聘 | 国网天津市电力公司2025年校园招聘

1 月前

案例SHOWCASE · 于亚辰x徐艺真，短剧双女主创业200天实录｜跟100个姐姐学赚钱

4 周前

案例SHOWCASE · 于亚辰x徐艺真，短剧双女主创业200天实录｜跟100个姐姐学赚钱

4 周前