专栏名称: 专知
专知,为人工智能从业者服务,提供专业可信的人工智能知识与技术服务,让认知协作更快更好!
今天看啥  ›  专栏  ›  专知

【ETHZ博士论文】面向开放集计算机视觉的语言引导,157页pdf

专知  · 公众号  ·  · 2025-01-02 11:00
    

文章预览

视觉世界广阔且不断发展。 此外,由于数据采集的长尾特性,计算机视觉系统无法在训练时观察到所有视觉概念。人类在小时候也并非学习整个世界。我们人类在一生中不断地适应并学习视觉概念。我们发展出了一个世界的组合性表征,其中复杂的实体被进一步分解为在不同视觉概念之间共享的更简单的原语。人类可以通过语言分享他们的组合视觉模型,这使得零-shot生成新类别成为可能。例如,如果某人没有观察过动物斑马,可以通过‘斑马是一种像马的动物,身上有黑白条纹’的描述来理解它。人类可以利用这一描述在没有显式视觉监督的情况下,对斑马进行零-shot泛化。在本篇博士论文中,我们利用人类语言的这一组合特性,开发了能够通过语言进行新类别泛化的计算机视觉系统,而无需通过带标签数据的重新训练。我们特别聚焦于零-shot学 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览