卷积网络又双叒叕行了？OverLoCK:一种仿生的卷积神经网络视觉基础模型

机器之心 · 公众号 · AI · 2025-03-30 12:26

文章预览

作者是香港大学俞益洲教授与博士生娄蒙。你是否注意过人类观察世界的独特方式？当面对复杂场景时，我们往往先快速获得整体印象，再聚焦关键细节。这种「纵观全局 - 聚焦细节（Overview-first-Look-Closely-next）」的双阶段认知机制是人类视觉系统强大的主要原因之一，也被称为 Top-down Attention 。虽然这种机制在许多视觉任务中得到应用，但是如何利用这种机制来构建强大的 Vision Backbone 却尚未得到充分研究。近期，香港大学将这种认知模式引入到了 Vision Backbone 的设计中，从而构建了一种全新的基于动态卷积的视觉基础模型，称为 OverLoCK (Overview-first-Look-Closely-next ConvNet with Context-Mixing Dynamic Kernels)。该模型在 ImageNet、COCO、ADE20K 三个极具挑战性的数据集上展现出了强大的性能。例如，30M 的参数规模的 OverLoCK-Tiny 模型在 ImageNet-1K 达到了 84.2% ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博

推荐文章

爱可可-爱生活 · 【[117星]nanoAhaMoment：单文件强化学习库，专为-20250405074910

昨天

爱可可-爱生活 · 【[76星]MathArena：为最新数学竞赛和奥林匹克竞赛评估-20250404192625

昨天

爱可可-爱生活 · 迭代智能体解码框架：提升黑盒AI性能的突破性方案查看图片 /-20250404071445

2 天前

宝玉xp · 回复@逻辑舞:围棋的话输赢的规则很简单，都不需要人工，程序就能判-20250404073656

2 天前

黄建同学 · 其实可能是从deepseek开始，让老外知道了免费又强大的模型的-20250403165028

2 天前

康复医学网 · 改善关节活动度与柔韧性的重要方法——静态拉伸

10 月前

芝士起源 · 大调整，要来了

4 月前

CityDiscount都市折扣 · 电不够，澳洲可能要控制空调和热水器的使用

3 月前