Nexa AI 发布 Omnivision：一个面向边缘 AI 的紧凑型视觉语言模型

InfoQ · 公众号 · 科技媒体 · 2024-12-10 15:02

主要观点总结

Nexa AI发布了专为边缘设备定制的紧凑型视觉语言模型Omnivision，该模型具有降低延迟和计算要求的能力，同时在视觉问答和图像字幕等任务中保持强劲性能。文章介绍了Omnivision模型的技术细节、创新点、训练管道和未来的扩展计划。

关键观点总结

关键观点1: Omnivision模型的特点

Omnivision模型是专为边缘设备定制的紧凑型视觉语言模型，能够大幅降低图像 token 数量，从729个减少到81个，同时保持强劲的性能。

关键观点2: Omnivision模型的架构

Omnivision模型集成了语言中枢Qwen-2.5-0.5B、SigLIP-400M视觉编码器和优化后的投影层，以处理多模态输入。其架构包括三个核心组件，专为高效的多模态处理而设计。

关键观点3: Omnivision模型的训练管道

Omnivision模型的训练管道分为预训练阶段、监督微调阶段和直接偏好优化（DPO）三个阶段。DPO利用高质量数据集减少幻觉，提高预测的可信度。

关键观点4: Omnivision模型的性能

Omnivision模型在多个数据集上的基准测试中表现出优异的性能，如ScienceQA、MM-VET和POPE等。其准确率在ScienceQA测试数据上达到71.0%，在POPE基准测试上达到93.3%，证明了其在复杂推理任务中的可靠性。

关键观点5: Omnivision模型的未来扩展计划

Nexa AI计划扩展Omnivision模型的功能，以支持光学字符识别（OCR）。目前，该模型主要用于视觉问答和图像字幕，但支持更好的OCR被认为是下一步的工作。Omnivision是一个开源框架，支持多种多模式任务，可以使用Nexa-SDK进行本地部署。

文章预览

作者 | Robert Krzaczyński 译者 | 平川策划 | Tina Nexa AI 发布了专为边缘设备定制的紧凑型视觉语言模型 Omnivision。它将图像 token 从 729 个大幅减少到了 81 个，降低了延迟和计算要求，并且在视觉问答和图像字幕等任务中保持了强劲的性能。该模型的架构集成了语言中枢 Qwen-2.5-0.5B、SigLIP-400M 视觉编码器和经过优化的投影层，以确保可以无缝地处理多模态输入。 Omnivision 的架构专为高效的多模态处理而设计，具有三个核心组件。Qwen-2.5-0.5B 模型是处理文本输入的基础，而 SigLIP-400M 视觉编码器则从输入图像生成图像嵌入。该编码器的分辨率为 384，块大小为 14×14，优化了视觉数据提取。然后，投影层使用多层感知器（MLP）将图像嵌入与语言模型的 token 空间对齐，从而简化了视觉语言集成。图片来源：Nexa AI 博客 Omnivision 的其中一项关键创新是将图像 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博