Chatbot Arena：一个根据人类偏好评估LLMs的开放平台

大语言模型和具身智体及自动驾驶 · 公众号 · · 2024-07-14 00:13

文章预览

24年3月来自UCBerkeley、斯坦福和UCSD的论文“Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference”。大语言模型 (LLM) 已经解锁了新的功能和应用；然而，评估与人类偏好的一致性仍然面临重大挑战。为了解决这个问题，推出 Chatbot Arena，一个基于人类偏好评估 LLM 的开放平台。其方法采用成对比较方法，并通过众包利用来自不同用户群的输入。该平台已经运行了几个月，积累了超过 24 万张选票。本文介绍该平台，分析迄今为止收集的数据，并解释用于高效准确地评估和排名模型的可靠统计方法。可以确认众包问题足够多样化和具有区分性，并且众包投票与专家评分员的投票高度一致。这些分析共同为 Chatbot Arena 的可信度奠定了坚实的基础。由于其独特的价值和开放性，Chatbot Arena 已成为最受引用的 LLM 排行榜之一，被领先的 LLM 开发人员和公司广 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

高分子科学前沿 · 环氧树脂回收新突破！上海交大团队开发“双溶剂系统”实现近100%降解

7 小时前

BNU统计 · 权益君丨统计学院学生意见收集渠道汇总（全年有效）

15 小时前

新法治报 · 北大官宣

2 天前

新法治报 · 北大官宣

2 天前

舜网 · 北京大学将扩招150名本科生

2 天前

舜网 · 北京大学将扩招150名本科生

2 天前

小熊科学分析 · 涂料检测标准项目-油漆-涂料检测项目汇总2024

7 月前

盖世汽车新能源 · 特斯拉称其无线充电效率“远高于90%”

4 月前

隆众资讯订阅号 · 环氧丙烷 | 年底偏弱收尾 1月或迎供应新高挑战

2 月前

田俊国讲坛 · 【2月22-23日】心智突围工作坊第九期（北京班），生命从此升维！

1 月前