2024-09-03 06:10
本条微博链接
通过序列划分、双缓冲设计以及计算与访存的精心调度,实现了transformer在资源受限环境下对超长序列的高效训练。
[LG]《Training Ultra Long Context Language Model with Fully Pipelined Distributed Transformer》J Yao, S A Jacobs, M Tanaka, O Ruwase... [Microsoft] (2024) 网页链接 #机器学习# #人工智能# #论文#
………………………………