专栏名称: AI TIME 论道
AI TIME是一群关注人工智能发展,并有思想情怀的青年学者创办的圈子,旨在发扬科学思辨精神,邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索,链接全球AI学者,以辩论的形式探讨人工智能领域的未来。
今天看啥  ›  专栏  ›  AI TIME 论道

Big Model Weekly | 第30期

AI TIME 论道  · 公众号  ·  · 2024-07-20 10:00

文章预览

点击蓝字 关注我们 AI TIME欢迎每一位AI爱好者的加入! 01 Mixture of A Million Experts 这篇论文探讨了稀疏的混合专家(MoE)架构,旨在解决传统图自注意力模型在隐藏层宽度增长时计算成本和激活记忆呈线性增加的问题。通过使用产品键技术,论文提出了PEER层设计,可以在大规模专家池中实现高效的检索,而不受到计算资源和优化问题的限制,这为大型模型进一步扩展和提高性能发挥了潜力。PEER层在语言建模任务上证明了与密集的前馈层和粗糙的MoE层相比,在性能和计算效率之间取得了更好的权衡。 文章链接: https://arxiv.org/pdf/2407.04153 02 SoftDedup: an Efficient Data Reweighting Method for Speeding Up Language Model Pre-training 本文针对大型语言模型(LLMs)在广泛预训练数据集中的有效性受到重复数据影响的问题,进行了一项研究。当前方法主要集中在检测和删除重复数 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览