文章预览
索引词 —大型语言模型、词嵌入、上下文嵌入、多模态表示、自然语言处理 摘要 —词嵌入和语言模型通过将语言元素表示在连续向量空间中,彻底改变了自然语言处理(NLP)。本综述回顾了分布假设和上下文相似性等基础概念,追溯了从稀疏表示(如one-hot编码)到密集嵌入(包括Word2Vec、GloVe和fastText)的演变。我们考察了静态嵌入和上下文嵌入的进展,重点介绍了ELMo、BERT和GPT等模型及其在跨语言和个性化应用中的适配。讨论还扩展到句子和文档嵌入,涵盖聚合方法和生成式主题模型,并探讨嵌入在多模态领域(如视觉、机器人和认知科学)的应用。高级主题如模型压缩、可解释性、数值编码和偏差消减也进行了分析,涉及技术挑战和伦理影响。此外,我们还确定了未来的研究方向,强调了对可扩展训练技术、增强解释性以及在非文本模态中稳
………………………………