主要观点总结
Nexa AI发布了专为边缘设备定制的紧凑型视觉语言模型Omnivision,该模型具有降低延迟和计算要求的能力,同时在视觉问答和图像字幕等任务中保持强劲性能。文章介绍了Omnivision模型的技术细节、创新点、训练管道和未来的扩展计划。
关键观点总结
关键观点1: Omnivision模型的特点
Omnivision模型是专为边缘设备定制的紧凑型视觉语言模型,能够大幅降低图像 token 数量,从729个减少到81个,同时保持强劲的性能。
关键观点2: Omnivision模型的架构
Omnivision模型集成了语言中枢Qwen-2.5-0.5B、SigLIP-400M视觉编码器和优化后的投影层,以处理多模态输入。其架构包括三个核心组件,专为高效的多模态处理而设计。
关键观点3: Omnivision模型的训练管道
Omnivision模型的训练管道分为预训练阶段、监督微调阶段和直接偏好优化(DPO)三个阶段。DPO利用高质量数据集减少幻觉,提高预测的可信度。
关键观点4: Omnivision模型的性能
Omnivision模型在多个数据集上的基准测试中表现出优异的性能,如ScienceQA、MM-VET和POPE等。其准确率在ScienceQA测试数据上达到71.0%,在POPE基准测试上达到93.3%,证明了其在复杂推理任务中的可靠性。
关键观点5: Omnivision模型的未来扩展计划
Nexa AI计划扩展Omnivision模型的功能,以支持光学字符识别(OCR)。目前,该模型主要用于视觉问答和图像字幕,但支持更好的OCR被认为是下一步的工作。Omnivision是一个开源框架,支持多种多模式任务,可以使用Nexa-SDK进行本地部署。
文章预览
作者 | Robert Krzaczyński
译者 | 平川
策划 | Tina Nexa AI 发布 了专为边缘设备定制的紧凑型视觉语言模型 Omnivision。它将图像 token 从 729 个大幅减少到了 81 个,降低了延迟和计算要求,并且在视觉问答和图像字幕等任务中保持了强劲的性能。该模型的架构集成了语言中枢 Qwen-2.5-0.5B、SigLIP-400M 视觉编码器和经过优化的投影层,以确保可以无缝地处理多模态输入。 Omnivision 的架构专为高效的多模态处理而设计,具有三个核心组件。Qwen-2.5-0.5B 模型是处理文本输入的基础,而 SigLIP-400M 视觉编码器则从输入图像生成图像嵌入。该编码器的分辨率为 384,块大小为 14×14,优化了视觉数据提取。然后,投影层使用多层感知器(MLP)将图像嵌入与语言模型的 token 空间对齐,从而简化了视觉语言集成。 图片来源:Nexa AI 博客 Omnivision 的其中一项关键创新是将图像
………………………………