智源研究院推出全球首个包含文生视频的模型对战评测服务

智源社区 · 公众号 · 互联网短视频科技自媒体 · 2024-09-05 17:18

主要观点总结

智源研究院推出了全球首个包含文生视频的面向用户开放的模型对战评测服务——FlagEval大模型角斗场。该服务覆盖国内外约40款大模型，支持语言问答、多模态图文理解、文生图、文生视频四大任务的自定义在线或离线盲测。秉承科学、权威、公正、开放的原则，角斗场采取匿名机制进行模型对战评测，并引入了主观倾向阶梯评分体系，能够更细致地评估模型生成内容的差异。用户可以通过移动端或网页端访问，进行多轮交流和提问，最终形成角斗场榜单。该服务由智源研究院持续迭代和优化，未来会将全链路数据进行开源，以促进大模型评测生态的发展。

关键观点总结

关键观点1: 全球首个包含文生视频的模型对战评测服务

智源研究院推出的FlagEval大模型角斗场是全球首个包含文生视频的面向用户开放的模型对战评测服务，覆盖国内外约40款大模型。

关键观点2: 支持多种任务的自定义在线或离线盲测

FlagEval大模型角斗场支持语言问答、多模态图文理解、文生图、文生视频四大任务的自定义在线或离线盲测，为用户提供高效的模型对战评测体验。

关键观点3: 采用匿名机制和主观倾向阶梯评分体系

角斗场的评测过程采取匿名机制，并引入了主观倾向阶梯评分体系，能够更细致地评估模型生成内容的差异，精确揭示模型性能差异。

关键观点4: 移动端访问入口和人性化的打分展示形式

除网页端外，FlagEval大模型角斗场还率先开放了移动端访问入口，并对打分展示形式进行了人性化设计，以降低用户认知负荷增加。

关键观点5: 持续迭代和优化，未来开源全链路数据

智源研究院持续迭代和优化FlagEval大模型评测体系，未来会对模型对战评测的全链路数据进行开源，以促进大模型评测生态的发展。

文章预览

2024年9月4日，智源研究院推出全球首个包含文生视频的面向用户开放的模型对战评测服务——FlagEval大模型角斗场，覆盖国内外约40款大模型，支持语言问答、多模态图文理解、文生图、文生视频四大任务的自定义在线或离线盲测，包含简单理解、知识应用、代码能力、推理能力多种预设问题。除网页端，该服务还率先开放了国内首个移动端访问入口，为用户提供高效便捷的模型对战评测体验。秉承FlagEval评测体系的科学、权威、公正、开放四大原则，大模型角斗场的评测过程采取匿名机制，在匿名对战中如出现已暴露或问题中试图暴露模型身份的对决评分将被视为无效，该条评测数据不对模型分数产生任何影响。此外，FlagEval大模型角斗场网页端首次引入了主观倾向阶梯评分体系，包含A远好于B、A略好于B、AB差不多、A远好于B、B略好于A、B ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博