专栏名称: DeepTech深科技
“DeepTech深科技”是与麻省理工科技评论官方独家合作的一个新科技内容品牌。我们专注于关注三个方面:1、基于科学的发现;2、真正的科技创新;3、深科技应用的创新。
今天看啥  ›  专栏  ›  DeepTech深科技

研究人员打造大模型评测标准GenAI-Arena,已能支持13个文生图模型

DeepTech深科技  · 公众号  · 科技媒体  · 2024-10-13 15:46
    

文章预览

2023 年底,文生图、文生视频等各种模型并没有很好的评测标准。很多论文都还在使用比较传统的工具来进行自动化评测。 但是,这些指标并不能反应真实世界的用户对于这些生成模型的偏好。 而对于生成模型来说,生成结果的好坏,又恰恰非常容易被人们所看出来,比如图像是否扭曲、模糊,再比如视频是否不自然等。 那么,如何开发一个能够收集人类偏好并能直接评测各个多模态模型能力的榜单? 为了解决这个问题,加拿大滑铁卢大学博士生姜东甫和所在团队,提出一个由用户来打分的多模态生成模型的竞技场——GenAI Arena。 图 | 左起:姜东甫、max ku、tianle li(来源:姜东甫) 定下课题之后,本次论文的共同一作 Tianle Li 开始在 Chatbot Arena 的代码基础之上进行改进,并添加了对于多模态生成模型的支持。 由于 Chatbot Arena 只支持生成文字的大 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览