注册登录

专栏名称: 吃果冻不吐果冻皮

专注于AI工程化（LLM、MLOps、LLMOps、RAG、Agent）落地。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

目录

相关文章推荐

新北方 · 幼儿坠桥，挖机师傅、水果摊主合力急救！官方通报 · 3 天前

新北方 · 明天全省晴好北风吹！未来七天冷暖空气交替频繁 · 4 天前

小学数学 · 十多年前，那个 “卖肾买iphone4” ... · 1 周前

今天看啥 › 专栏 › 吃果冻不吐果冻皮

关于大模型评测的 Yi 点思考

吃果冻不吐果冻皮 · 公众号 · · 2024-10-19 14:50

文章预览

随着 LMSYS 公布最新一批竞技场对战结果， Yi-Lightning 正式发布并且获得了全球第六名的好成绩。身边的朋友们都第一时间进行了评测，然后带着一种“困惑”的语气和我们说： “你们的模型在公开的 Benchmark 上的指标似乎不像 LMSYS 那样突出呀？ ” 非常好的问题，也是很难回答的问题，但又是必须深入思考的问题，以及可能引起浮言的问题。刚好趁着 Yi-Lightning 的发布，我们也想跟大家分享一下对大模型评测的 Yi 点点理解。 1 拆分 Capacity-Capability-Preference 我们讨论大模型评测的时候，常常喜欢按 “KTP原则” 拆分并逐层分析，它指的是： Knowledge Capacity（知识容量） Task Capability（任务能力） Human Preference（人类偏好）这三个层面由低到高，从 Low-level 的世界知识容量到 High-level 的人类偏好，能够相对全面地展现 LLM 能力。在早期的 LLM 探索过程中， ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

新北方 · 幼儿坠桥，挖机师傅、水果摊主合力急救！官方通报

3 天前

新北方 · 明天全省晴好北风吹！未来七天冷暖空气交替频繁

4 天前

小学数学 · 十多年前，那个 “卖肾买iphone4” 的17岁小伙，现在怎么样了？

1 周前

财经 · 谁在长江电力赚了200亿

5 月前

3D视觉工坊 · 综述 | 200+参考文献！自动驾驶的多智能体强化学习

3 月前

券商中国 · 中东增量资金来了！沙特首只中国香港ETF获批

2 月前

Z Potentials · 速递｜YC Demo Day 2上9家脱颖而出的初创，AI依然是主题

1 月前

审计实践 · 审计人员要做好审前调查这门功课

2 周前

关于移动版 · Py中国 · RSS之家 · CodingPro · Code · Link之家 · 卧龙AI搜索 · 小百科

今天看啥 - 微信公众号rss订阅, 微信rss, 稳定的RSS源

© 2024 ~ 沪ICP备11025650号