专栏名称: DeepTech深科技

“DeepTech深科技”是与麻省理工科技评论官方独家合作的一个新科技内容品牌。我们专注于关注三个方面：1、基于科学的发现；2、真正的科技创新；3、深科技应用的创新。

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

研究人员打造大模型评测标准GenAI-Arena，已能支持13个文生图模型

DeepTech深科技 · 公众号 · 科技媒体 · 2024-10-13 15:46

主要观点总结

本文主要介绍了关于多模态生成模型的评测平台GenAI Arena的相关内容，包括其开发背景、过程、功能和应用前景等。

关键观点总结

关键观点1: GenAI Arena的提出背景

文章介绍了在2023年底，由于传统的模型评测工具无法真实反映用户对生成模型的偏好，加拿大滑铁卢大学博士生姜东甫和所在团队提出GenAI Arena，这是一个由用户进行打分的多模态生成模型的竞技场。

关键观点2: GenAI Arena的研发过程

文章描述了GenAI Arena的研发过程，包括基于Chatbot Arena的代码进行改进，添加对多模态生成模型的支持，以及解决网站部署和技术支持等问题。

关键观点3: GenAI Arena的功能

文章指出GenAI Arena目前已能支持文生图、图像编辑和文生视频等任务，并能收集人类偏好投票用于榜单计算。同时，GenAI Arena收集的数据可用于多个应用场景。

关键观点4: GenAI Arena的应用前景

文章展望了GenAI Arena的未来，包括开发更快、更准确的自动化评测指标，利用收集的人类偏好数据训练奖励模型，以及提高生成模型的能力等。

关键观点5: 其他相关新闻

文中还提及了其他与主题相关的新闻，如科学家揭示肿瘤免疫疗法新机制、硅谐振器实现红外成像、比亚迪在气候科技公司榜单中的表现、化学诺贝尔奖和物理诺贝尔奖的颁发等。

文章预览

2023 年底，文生图、文生视频等各种模型并没有很好的评测标准。很多论文都还在使用比较传统的工具来进行自动化评测。但是，这些指标并不能反应真实世界的用户对于这些生成模型的偏好。而对于生成模型来说，生成结果的好坏，又恰恰非常容易被人们所看出来，比如图像是否扭曲、模糊，再比如视频是否不自然等。那么，如何开发一个能够收集人类偏好并能直接评测各个多模态模型能力的榜单？为了解决这个问题，加拿大滑铁卢大学博士生姜东甫和所在团队，提出一个由用户来打分的多模态生成模型的竞技场——GenAI Arena。图 | 左起：姜东甫、max ku、tianle li（来源：姜东甫）定下课题之后，本次论文的共同一作 Tianle Li 开始在 Chatbot Arena 的代码基础之上进行改进，并添加了对于多模态生成模型的支持。由于 Chatbot Arena 只支持生成文字的大 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博