专栏名称: 智驾实验室
欢迎关注“智驾实验室”!本公众号专注于自动驾驶领域,为您带来世界模型的最新研究,多模态大模型的深入解析,以及多模态大模型在自动驾驶领域的应用与落地。在这里,您可以了解到自动驾驶技术的最新动态,洞察行业趋势,与我们一起探索未来出行的无限可能。
今天看啥  ›  专栏  ›  智驾实验室

多模态大模型突破 ! 百语大模型仅用25%非英语数据,横扫56语任务SOTA !

智驾实验室  · 公众号  ·  · 2025-03-08 08:00
    

文章预览

备注好友: 方向-学校/公司-姓名/昵称 【AIGC 先锋科技】交流群 迄今为止,大多数大规模视觉-语言模型(LVLMs)主要在英语数据上训练,这使得它们难以理解非英语输入,并且无法生成所需的目标语言输出。现有的努力通过添加多语言训练数据来减轻这些问题,但这种做法大多是临时的,缺乏对不同语言训练混合如何影响不同语言群体的洞察。在这项工作中,作者全面调查了大规模多语言LVLM的训练策略。首先,作者进行了一系列多阶段实验,涵盖13个下游视觉-语言任务和43种语言,系统地考察了: (1)在不降低英语性能的前提下可以包含多少种训练语言; (2)预训练和指令微调的最佳语言分布; (3)指令微调数据。进一步地,(4)作者研究了如何提高多语言文本图像理解,并为此任务引入了一个新的基准。 令人惊讶的是,作者的分析揭示了 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览