2024-10-29 05:36
本条微博链接
混合专家模型在知识密集型任务中展现出卓越的记忆能力,但在推理任务方面却不如密集 Transformer,这揭示了模型架构与任务类型之间存在深刻的联系,并非所有任务都适合 MoE 架构。
[LG]《Mixture of Parrots: Experts improve memorization more than reasoning》S Jelassi, C Mohri, D Brandfonbrener, A Gu... [Harva
………………………………