专栏名称: 深度学习自然语言处理

一个从大三就接触NLP的小小NLPer，本公众号每天记录自己的一点一滴，每篇文章最后也有托福单词等新知识，学技术同时，也一点一滴积累额外的知识。期待与你在知识的殿堂与你相遇！

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

大模型分不清 9.9 与 9.11 谁大，那 Embedding 模型呢？

深度学习自然语言处理 · 公众号 · · 2024-08-07 21:07

文章预览

来自: Jina AI 这是我在维也纳举行的 ICML 会议上被问到的问题。在茶歇期间，一位 Jina 用户向我提出了一个 LLM 社区最近热议的问题。他问我们 Jina Embedding 模型能不能判断 9.11 比 9.9 更小，很多大模型在这个小问题上栽了跟头。我说：“说实话，我也不确定。” 他接着详细阐述了这个问题对于他研究的重要性，并暗示：Tokenizer 可能是问题的根源，我若有所思点点头，脑海里开始构思如何用实验来找到答案。本文我将通过一系列实验来探索 Embedding、Reranker 模型能否可以准确比较数字。为了验证模型在实际应用中的表现，我还设计了一些具有挑战性的测试用例，包括小数比较（例如 0.001 和 0.0001）货币金额（ $1.99 和 $2.00 ）日期比较（例如 2023-12-31 和 2024-01-01）时间比较（例如 23:59 和 00:00）在这次实验中，我选择了 jina-embeddings-v2-base-en （2023 年 10 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

佑子爸爸育儿 · 00后女教师因“批卷”走红，学生看后都舍不得扔，校长：才女！

2 天前

佑子爸爸育儿 · 00后女教师因“批卷”走红，学生看后都舍不得扔，校长：才女！

2 天前

东大计软智 · “计”算未来·新生风采｜吴金浩：千里万里

3 天前

广西师乐 · 新出！南宁/柳州/河池市公开招聘教师！实名编制！现场报名！

4 天前

广西师乐 · 新出！南宁/柳州/河池市公开招聘教师！实名编制！现场报名！

4 天前

华尔街见闻 · 高盛审视AI交易：投资者愈发担心“过度投资”，二季报收入下调将重创估值

4 月前

CHINADAILY · 伊拉克学生搬进“中国学校”，首批将建成1000所

3 周前

南京本地宝 · 当天往返！南京出发，这些赏秋打卡地景美又好玩！

2 周前