专栏名称: 老刘说NLP
老刘,NLP开源爱好者与践行者。主页:https://liuhuanyong.github.io。老刘说NLP,将定期发布语言资源、工程实践、技术总结等内容,欢迎关注。
今天看啥  ›  专栏  ›  老刘说NLP

经验总结之代码数据对大模型预训练影响分析:兼看多模态大模型Qwen2-VL开源

老刘说NLP  · 公众号  ·  · 2024-08-30 10:36
    

文章预览

今天是2024年8月30日,星期五,北京,天气晴。 本文主要介绍两个工作,一个是开源进展之多模态大模型Qwen2-VL开源,看看其优化点,其中最重要的就是动态分辨率的问题。 一个是关于代码数据加入预训练数据中的影响,里面可以重点看看对应的消融实验设定、相关数据集以及对应的评估方式。 今天是8月的最后一个工作日,时间过的很快,但依旧有很多有趣的工作,我们持续跟进,供大家一起参考并思考。 一、开源进展之多模态大模型Qwen2-VL开源 昨日,多模态大模型Qwen2-VL开源,https://qwenlm.github.io/blog/qwen2-vl/,https://github.com/QwenLM/Qwen2-VL,有Qwen2-VL-72B、Qwen2-VL-2B 、 Qwen2-VL-7B 三个版本,后两个开源,这个可以测试下。 根据其描述,在模型模型架构上,继续采用了Qwen-VL架构,它利用了视觉变换器(ViT)模型和Qwen2语言模型。对于所有这些变体,使用了 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览