讨论计算机视觉、深度学习和自动驾驶的技术发展和挑战
今天看啥  ›  专栏  ›  大语言模型和具身智体及自动驾驶

Chatbot Arena:一个根据人类偏好评估LLMs的开放平台

大语言模型和具身智体及自动驾驶  · 公众号  ·  · 2024-07-14 00:13
    

文章预览

24年3月来自UCBerkeley、斯坦福和UCSD的论文“Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference”。 大语言模型 (LLM) 已经解锁了新的功能和应用;然而,评估与人类偏好的一致性仍然面临重大挑战。为了解决这个问题,推出 Chatbot Arena,一个基于人类偏好评估 LLM 的开放平台。其方法采用成对比较方法,并通过众包利用来自不同用户群的输入。该平台已经运行了几个月,积累了超过 24 万张选票。本文介绍该平台,分析迄今为止收集的数据,并解释用于高效准确地评估和排名模型的可靠统计方法。 可以确认众包问题足够多样化和具有区分性,并且众包投票与专家评分员的投票高度一致。这些分析共同为 Chatbot Arena 的可信度奠定了坚实的基础。由于其独特的价值和开放性,Chatbot Arena 已成为最受引用的 LLM 排行榜之一,被领先的 LLM 开发人员和公司广 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览