活动报名｜揭秘Bengio团队最新评测工作：视觉字幕恢复VCR，现有大模型能否过关？

智源社区助手 · 公众号 · · 2024-07-15 12:19

文章预览

报告主题：揭秘Bengio团队最新评测工作：视觉字幕恢复VCR，现有大模型能否过关？报告日期：7月19日（周二）10:30-11:30 报告要点：本次报告中我将介绍我与Bengio团队合作的最新工作——视觉字幕恢复（Visual Caption Restoration, VCR）。该任务通过恢复图像中被部分遮挡的文本，挑战现有视觉语言模型（Vision-Language Models, VLM）的高级认知能力。VCR任务要求模型对视觉和文本信息进行精确对齐，并利用图像上下文和像素级字符提示来重建被遮挡的内容。与传统的视觉问答（VQA）和光学字符识别（OCR）任务不同，VCR任务提供明确的标准答案，同时需要模型合理利用多模态信息，展现其推理能力和内部一致性。我们基于维基百科创建了VCR-wiki数据集用于视觉语言模型的训练和评测。在这一数据集的评测上，许多在VQA和OCR基准测试中表现优异的视觉大模型暴露 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

中国证券报 · 投资范式再突破！信达澳亚基金重磅推出「指数+」品牌及首批应用产品

昨天

华泰睿思 · 华泰 | 建筑建材：俄乌重建预期升温，催化国际工程

昨天

华泰睿思 · 华泰 | 科技巨头Capex热情不减，但市场预期转向落地实绩

2 天前

今晚报 · 炒至17万元！“谢霆锋自己都抢不到......”

2 天前

今晚报 · 炒至17万元！“谢霆锋自己都抢不到......”

2 天前

中国证券报 · 沪市首份年报，出炉

2 天前

肿瘤资讯 · 【肺长TALK】杨衿记教授：洛拉替尼一线中位PFS突破60个月，助力晚期肺癌患者走向临床治愈

8 月前

曹广福的数学茶馆 · 我差点成为全国优秀教师

3 月前