专栏名称: AINLP
关注AI、NLP相关技术,关注算法研发职位和课程;回复"文章"获取历史信息;双语聊天机器人"无名";中英翻译请输入:翻译 翻译内容;自动对联,请输入:上联 上联内容;调戏夸夸聊天机器人,请求夸、求赞;查询相似词,请输入: 相似词 词条
今天看啥  ›  专栏  ›  AINLP

向量模型的词序感知缺陷与优化策略

AINLP  · 公众号  ·  · 2025-01-08 23:03
    

文章预览

最近,LAION AI 的创始人 Christoph Schuhmann 分享了一个有趣的发现,他指出,文本向量模型似乎存在一个问题: 即使句子词序被打乱,模型输出的向量与原句仍然高度相似。 例如,“柏林是德国的首都” 和 “德国柏林是首都的”这两句话,后者虽然读都读不顺,但模型却分不出来。使用 jina-embeddings-v3 计算,它们的余弦相似度竟高达 0.973。 这不是个例。改变词序虽然会改变句子的意思,但向量之间的距离变化很小。 “她看完电影后吃了晚饭” 和 “她吃了晚饭后看完电影”,尽管动作顺序完全颠倒,余弦相似度仍然高达 0.985。 更麻烦的是,没经过特殊训练的模型在处理否定词上也表现不太好。 “这是一个有用的模型” 和 “这不是一个有用的模型” 在向量空间中的表示非常相近。同义词的替换(例如将“今天”换成“昨天”)或者时态的改变, ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览