专栏名称: 吃果冻不吐果冻皮
专注于AI工程化(LLM、MLOps、LLMOps、RAG、Agent)落地。
今天看啥  ›  专栏  ›  吃果冻不吐果冻皮

关于大模型评测的 Yi 点思考

吃果冻不吐果冻皮  · 公众号  ·  · 2024-10-19 14:50

文章预览

随着 LMSYS 公布最新一批竞技场对战结果, Yi-Lightning 正式发布并且获得了全球第六名的好成绩。 身边的朋友们都第一时间进行了评测,然后带着一种“困惑”的语气和我们说: “你们的模型在公开的 Benchmark 上的指标似乎不像 LMSYS 那样突出呀? ” 非常好的问题,也是很难回答的问题,但又是必须深入思考的问题,以及可能引起浮言的问题。刚好趁着 Yi-Lightning 的发布,我们也想跟大家分享一下对大模型评测的 Yi 点点理解。 1  拆分 Capacity-Capability-Preference 我们讨论大模型评测的时候,常常喜欢按 “KTP原则” 拆分并逐层分析,它指的是: Knowledge Capacity(知识容量) Task Capability(任务能力) Human Preference(人类偏好) 这三个层面由低到高,从 Low-level 的世界知识容量到 High-level 的人类偏好,能够相对全面地展现 LLM 能力。 在早期的 LLM 探索过程中, ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览