今天看啥  ›  专栏  ›  智源社区助手

活动报名|揭秘Bengio团队最新评测工作:视觉字幕恢复VCR,现有大模型能否过关?

智源社区助手  · 公众号  ·  · 2024-07-15 12:19

文章预览

报告主题 :揭秘Bengio团队最新评测工作:视觉字幕恢复VCR,现有大模型能否过关? 报告日期 :7月19日(周二)10:30-11:30 报告要点 : 本次报告中我将介绍我与Bengio团队合作的最新工作——视觉字幕恢复(Visual Caption Restoration, VCR)。该任务通过恢复图像中被部分遮挡的文本,挑战现有视觉语言模型(Vision-Language Models, VLM)的高级认知能力。VCR任务要求模型对视觉和文本信息进行精确对齐,并利用图像上下文和像素级字符提示来重建被遮挡的内容。与传统的视觉问答(VQA)和光学字符识别(OCR)任务不同,VCR任务提供明确的标准答案,同时需要模型合理利用多模态信息,展现其推理能力和内部一致性。 我们基于维基百科创建了VCR-wiki数据集用于视觉语言模型的训练和评测。在这一数据集的评测上,许多在VQA和OCR基准测试中表现优异的视觉大模型暴露 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览