使用小型视觉语言模型（VLM）进行物体识别与计数

小白玩转Python · 公众号 · · 2024-12-12 20:48

文章预览

点击下方卡片，关注“ 小白玩转Python ”公众号今天的重点是一个具有无数实际应用的功能：在边缘设备（如智能手机、物联网设备和嵌入式系统）上运行小型视觉语言模型（VLM）。这些模型在识别和指出物体方面越来越出色。具体来说，它们在检测制造缺陷、计数可用停车位或发现癌细胞方面表现优异。尽管它们潜力巨大，但许多人并不知道这些小型VLM是专门为这些任务训练的。模型：Molmo 7B Molmo 是由 Allen Institute for AI 开发的一组开放视觉语言模型。它们在 PixMo 数据集上进行训练，该数据集包含 100 万对图像-文本对。基于 Qwen2–7B 和 OpenAI CLIP 构建的 Molmo 7B-D 几乎与 GPT-4V 和 GPT-4o 一样出色。工具：MLX-VLM 以及 MLX 社区 MLX-VLM 是 Prince Canuma（Blaizzy）开发的一个工具，用于在 Mac 上使用 MLX 运行和微调视觉语言模型（VLM）。它支持多种模型，如 molm ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博