文章预览
点击上方 “ 小白学视觉 ”,选择加" 星标 "或“ 置顶 ” 重磅干货,第一时间送达 我们对Gemini印象深刻的多模态能力已经很熟悉了,特别是在涉及图像数据推理时——无论是涉及图像描述、OCR、分类,还是识别图像中的特定内容。 与其开放模型对应物PaliGemma不同,Gemini模型并没有明确针对目标检测任务进行训练。这一事实促使我进行一些实验并撰写这篇博客。 PaliGemma 链接:https://ai.google.dev/gemma/docs/paligemma 注意:在这里,当我们谈论目标检测时,我们指的是通过绘制边界框来识别和定位对象,就像YOLO、DETR、EfficientDet、Florence-2和PaliGemma等模型所做的那样。 先决条件 我们只需要Gemini的API密钥——别无他物。我假设你已经熟悉Gemini API。如果你不熟悉,请查看这篇博客,了解如何在Google AI Studio上创建你的Gemini API密钥。 打开仓库中的Colab笔记本
………………………………