今天看啥  ›  专栏  ›  微软亚洲研究院

如何理解和探索大模型的多语言能力?

微软亚洲研究院  · 公众号  · AI  · 2024-08-14 17:55

文章预览

(本文阅读时间:7分钟) 编者按:大语言模型在未使用多语言平行语料库进行预训练的情况下,依然表现出了卓越的多语言能力。但大模型如何处理多语言文本的底层机制仍是一个具有挑战性的问题。对此,微软亚洲研究院联合中国人民大学提出了语言激活概率熵,用于识别大模型中的语言特定神经元。该研究为理解和探索大模型的多语言能力提供了重要依据,并被自然语言处理领域的国际顶级学术会议 ACL 2024 收录。 全球共有超过7000种语言,提升机器的多语言能力是学术界和工业界共同追求的一个重要的研究目标,旨在打破语言壁垒,促进知识和信息的交流与传播。mBERT 和 XLM-R 等预训练语言模型的出现,标志着大模型多语言理解能力的显著进步。尤其最近,尽管 GPT-4 和 PaLM-2 主要基于英语语料库进行训练,但它们仍然在语言理解、推理和生成 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览