专栏名称: Datawhale
一个专注于AI领域的开源组织,汇聚了众多顶尖院校和知名企业的优秀学习者,聚集了一群有开源精神和探索精神的团队成员。愿景-for the learner,和学习者一起成长。
目录
相关文章推荐
CHINADAILY  ·  Editorial丨China ... ·  2 天前  
今天看啥  ›  专栏  ›  Datawhale

一文详尽之Embedding(向量表示)!

Datawhale  · 公众号  ·  · 2025-01-18 22:46
    

文章预览

 Datawhale干货  作者:杜晓东,Datawhale成员 在大模型时代,Embedding(向量表示)的重要性愈发凸显。 不论是在 RAG 系统,还是在跨模态任务中都扮演着关键角色。 本文带你详细了解文本向量的前世今生,让你能够更好地了解向量,使用向量。 1. 文本表示模型简介 文本是一类非常重要的非结构化数据,如何表示文本数据一直是机器学习领域的一个重点研究方向。文本向量就是深度学习时代产生的一种文本表示的方法。 1.1 独热编码 最简单的文本表示模型就是独热编码(One-Hot Encoding),用于将词汇表中的每个词转换为一个高维稀疏向量,每个词的向量中只有一个位置为1,其余位置为0。假设我们有一个词汇表(词典)V,其中包含N个唯一的词。每个词可以表示为一个长度为N的二进制向量。在这个向量中,只有一个位置为1,对应于该词在词汇表中的位 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览