文章预览
点击下方 卡片 ,关注“ 小白玩转Python ”公众号 今天的重点是一个具有无数实际应用的功能:在边缘设备(如智能手机、物联网设备和嵌入式系统)上运行小型视觉语言模型(VLM)。这些模型在识别和指出物体方面越来越出色。具体来说,它们在检测制造缺陷、计数可用停车位或发现癌细胞方面表现优异。尽管它们潜力巨大,但许多人并不知道这些小型VLM是专门为这些任务训练的。 模型:Molmo 7B Molmo 是由 Allen Institute for AI 开发的一组开放视觉语言模型。它们在 PixMo 数据集上进行训练,该数据集包含 100 万对图像-文本对。基于 Qwen2–7B 和 OpenAI CLIP 构建的 Molmo 7B-D 几乎与 GPT-4V 和 GPT-4o 一样出色。 工具:MLX-VLM 以及 MLX 社区 MLX-VLM 是 Prince Canuma(Blaizzy)开发的一个工具,用于在 Mac 上使用 MLX 运行和微调视觉语言模型(VLM)。它支持多种模型,如 molm
………………………………