Gemini 可以进行目标检测了！

小白学视觉 · 公众号 · · 2024-11-10 10:05

文章预览

点击上方 “ 小白学视觉 ”，选择加" 星标 "或“ 置顶 ” 重磅干货，第一时间送达我们对Gemini印象深刻的多模态能力已经很熟悉了，特别是在涉及图像数据推理时——无论是涉及图像描述、OCR、分类，还是识别图像中的特定内容。与其开放模型对应物PaliGemma不同，Gemini模型并没有明确针对目标检测任务进行训练。这一事实促使我进行一些实验并撰写这篇博客。 PaliGemma 链接：https://ai.google.dev/gemma/docs/paligemma 注意：在这里，当我们谈论目标检测时，我们指的是通过绘制边界框来识别和定位对象，就像YOLO、DETR、EfficientDet、Florence-2和PaliGemma等模型所做的那样。先决条件我们只需要Gemini的API密钥——别无他物。我假设你已经熟悉Gemini API。如果你不熟悉，请查看这篇博客，了解如何在Google AI Studio上创建你的Gemini API密钥。打开仓库中的Colab笔记本 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博