一个从大三就接触NLP的小小NLPer,本公众号每天记录自己的一点一滴,每篇文章最后也有托福单词等新知识,学技术同时,也一点一滴积累额外的知识。期待与你在知识的殿堂与你相遇!
今天看啥  ›  专栏  ›  深度学习自然语言处理

大模型分不清 9.9 与 9.11 谁大,那 Embedding 模型呢?

深度学习自然语言处理  · 公众号  ·  · 2024-08-07 21:07

文章预览

来自: Jina AI 这是我在维也纳举行的 ICML 会议上被问到的问题。 在茶歇期间,一位 Jina 用户向我提出了一个 LLM 社区最近热议的问题。他问我们 Jina Embedding 模型能不能判断 9.11 比 9.9 更小,很多大模型在这个小问题上栽了跟头。 我说:“说实话,我也不确定。” 他接着详细阐述了这个问题对于他研究的重要性,并暗示:Tokenizer 可能是问题的根源,我若有所思点点头,脑海里开始构思如何用实验来找到答案。 本文我将通过一系列实验来探索 Embedding、Reranker 模型能否可以准确比较数字。为了验证模型在实际应用中的表现,我还设计了一些具有挑战性的测试用例,包括 小数比较(例如 0.001 和 0.0001) 货币金额 ( $1.99 和 $2.00 ) 日期比较(例如 2023-12-31 和 2024-01-01) 时间比较(例如 23:59 和 00:00) 在这次实验中,我选择了 jina-embeddings-v2-base-en (2023 年 10 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览