注册
登录
专栏名称:
深度学习与NLP
专注深度学习、NLP相关技术、资讯,追求纯粹的技术,享受学习、分享的快乐。
我也要提交微信公众号
今天看啥
微信公众号rss订阅, 微信rss, 稳定的RSS源
微信公众号RSS订阅方法
B站投稿RSS订阅方法
雪球动态RSS订阅方法
微博RSS订阅方法
微博搜索关键词订阅方法
豆瓣日记 RSS订阅方法
目录
相关文章推荐
笔吧评测室
·
雷蛇推出 14 合一 USB 4 ...
·
10 小时前
笔吧评测室
·
ThinkPad X1 Carbon ...
·
2 天前
笔吧评测室
·
笔记本品牌 VAIO ...
·
3 天前
笔吧评测室
·
聊一款「轻薄游戏本」的开山鼻祖
·
5 天前
笔吧评测室
·
索尼总裁十时裕树:PS5 Pro ...
·
6 天前
今天看啥
›
专栏
›
深度学习与NLP
对大模型演进方向的思考!
深度学习与NLP
·
公众号
· · 2024-09-15 00:00
文章预览
作者:霸王手枪腿@知乎 原文:https://zhuanlan.zhihu.com/p/682434451 大模型计算方式会如何变革,一直是一个持续思考的问题,简单记录一些思路,逻辑并不严谨,不怕打脸,一年后再看。 1 大模型发展的方向是“稀疏” 这里面稀疏指的是,每次执行具体的任务所消耗的资源与整体参数量的比值会越来越低。从以gemm为主到以gemv为主,可以算是一种稀疏(本质上这种稀疏允许了更大的context length的可能性)。MoE毫无疑问也是更稀疏的。从人理解世界的方式而言,稀疏应该是一个比较commen sense的思路。 2 训练和推理的界限会变得模糊 推理的过程中会进行着某种形式的训练 。本质而言,长seq_length带来的巨大的kv cache就是某种意义上的训练,但看起来并不是一种足够高效的方式,所以我感觉这未必会是终极形态。从具体的程序架构而言,在推理的执行模块,对于 ………………………………
原文地址:
访问原文地址
快照地址:
访问文章快照
总结与预览地址:
访问总结与预览
分享到微博
推荐文章
笔吧评测室
·
雷蛇推出 14 合一 USB 4 拓展坞:100W 电源传输,PC / MacBook/ iPad 均可用
10 小时前
笔吧评测室
·
ThinkPad X1 Carbon Aura AI 宣布 11 月 18 日发布,986g 重
2 天前
笔吧评测室
·
笔记本品牌 VAIO 将易主:日本家电零售商野岛拟以 111 亿日元收购 93% 股份
3 天前
笔吧评测室
·
聊一款「轻薄游戏本」的开山鼻祖
5 天前
笔吧评测室
·
索尼总裁十时裕树:PS5 Pro 游戏机目标群体是硬核用户,定价没有负面影响
6 天前
生信图书馆
·
这是咱们国人的杰作啊!同济医院骆翔教授团队利用“UKB数据库+孟德尔随机化”顺利收获一区5分,有这思路还卷什么实验啊!
1 月前