专栏名称: InfoQ
有内容的技术社区媒体。
今天看啥  ›  专栏  ›  InfoQ

Nexa AI 发布 Omnivision:一个面向边缘 AI 的紧凑型视觉语言模型

InfoQ  · 公众号  · 科技媒体  · 2024-12-10 15:02
    

主要观点总结

Nexa AI发布了专为边缘设备定制的紧凑型视觉语言模型Omnivision,该模型具有降低延迟和计算要求的能力,同时在视觉问答和图像字幕等任务中保持强劲性能。文章介绍了Omnivision模型的技术细节、创新点、训练管道和未来的扩展计划。

关键观点总结

关键观点1: Omnivision模型的特点

Omnivision模型是专为边缘设备定制的紧凑型视觉语言模型,能够大幅降低图像 token 数量,从729个减少到81个,同时保持强劲的性能。

关键观点2: Omnivision模型的架构

Omnivision模型集成了语言中枢Qwen-2.5-0.5B、SigLIP-400M视觉编码器和优化后的投影层,以处理多模态输入。其架构包括三个核心组件,专为高效的多模态处理而设计。

关键观点3: Omnivision模型的训练管道

Omnivision模型的训练管道分为预训练阶段、监督微调阶段和直接偏好优化(DPO)三个阶段。DPO利用高质量数据集减少幻觉,提高预测的可信度。

关键观点4: Omnivision模型的性能

Omnivision模型在多个数据集上的基准测试中表现出优异的性能,如ScienceQA、MM-VET和POPE等。其准确率在ScienceQA测试数据上达到71.0%,在POPE基准测试上达到93.3%,证明了其在复杂推理任务中的可靠性。

关键观点5: Omnivision模型的未来扩展计划

Nexa AI计划扩展Omnivision模型的功能,以支持光学字符识别(OCR)。目前,该模型主要用于视觉问答和图像字幕,但支持更好的OCR被认为是下一步的工作。Omnivision是一个开源框架,支持多种多模式任务,可以使用Nexa-SDK进行本地部署。


文章预览

作者 | Robert Krzaczyński 译者 | 平川 策划 | Tina Nexa AI 发布 了专为边缘设备定制的紧凑型视觉语言模型 Omnivision。它将图像 token 从 729 个大幅减少到了 81 个,降低了延迟和计算要求,并且在视觉问答和图像字幕等任务中保持了强劲的性能。该模型的架构集成了语言中枢 Qwen-2.5-0.5B、SigLIP-400M 视觉编码器和经过优化的投影层,以确保可以无缝地处理多模态输入。 Omnivision 的架构专为高效的多模态处理而设计,具有三个核心组件。Qwen-2.5-0.5B 模型是处理文本输入的基础,而 SigLIP-400M 视觉编码器则从输入图像生成图像嵌入。该编码器的分辨率为 384,块大小为 14×14,优化了视觉数据提取。然后,投影层使用多层感知器(MLP)将图像嵌入与语言模型的 token 空间对齐,从而简化了视觉语言集成。 图片来源:Nexa AI 博客 Omnivision 的其中一项关键创新是将图像 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览