大模型的基本功

吃果冻不吐果冻皮 · 公众号 · · 2024-08-31 13:15

文章预览

【点击】加入大模型技术交流群原文: https://zhuanlan.zhihu.com/p/716344766 这篇文章给大家推荐几个大模型的练手程序，也就是所谓的“基本功”。先问个问题，除了 transformer、rope、swiglu、rms_norm，大家觉着大模型的基本功都有哪些呢？flash_attention 的原理？megatron 的各种 parallel 策略？量化和推理加速技术？cuda编程？怎么说呢，这些“有技术含量的大模型的核心技术”确实很重要，但我个人还是觉着大多数人在实际工作中并不需要完全理解它们。因为它们追求的是模型性能的极限优化，对我们做个简单的 SFT、PPO 并无太大助力。往往我们的需求只是使用它们，而不是去优化它们。所以，我会给出一些我个人认为工作中很常用，但却“没有技术含量”的一些基本功（刷面经的同学可以不用看了哈，我推荐的基本功面试官不会考的）。 trans_XX_to_llama.py 在 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

阳光海南网 · 看周杰伦三亚演唱会，免费大巴接你回海棠区→

16 小时前

阳光海南网 · 看周杰伦三亚演唱会，免费大巴接你回海棠区→

16 小时前

新闻坊 · 噩耗传来！传奇女歌手突发意外身亡, 家人"心都碎了…"

23 小时前

新闻坊 · 噩耗传来！传奇女歌手突发意外身亡, 家人"心都碎了…"

23 小时前

麦音乐 · 如果道路本身很美，不要问它通向何方

3 天前

莓辣MAYLOVE · 被全网讨伐的麦琳，才是《再见爱人》真正的大血包！

3 月前

紫金秋江论坛 · 惊险！河源一初中生闹情绪误闯高速

1 周前