|
NeurIPS 2024 | MaVEn:面向多模态大模型多图理解的连续/离散视觉混合编码策略 CV技术指南 · 公众号 · · 1 周前 · 访问文章快照 |
|
Sora二代实机演示曝光!解锁图生视频,奥特曼暗示:期待周一 CV技术指南 · 公众号 · 科技创业 科技自媒体 · 1 周前 · 访问文章快照 |
|
AAAI 2024 | 即插即用,Conv-Former注意力模块,用卷积实现Transformer效果! CV技术指南 · 公众号 · · 1 周前 · 访问文章快照 |
|
GroundiT:利用 Diffusion Transformers实现精确无训练空间定位,实现 SOTA 性能 ! CV技术指南 · 公众号 · · 2 周前 · 访问文章快照 |
|
Token化一切!北大、谷歌等提出TokenFormer,Transformer从未这么灵活过 CV技术指南 · 公众号 · · 2 周前 · 访问文章快照 |
|
盘点 2024 年的视觉语言模型VLMs CV技术指南 · 公众号 · · 2 周前 · 访问文章快照 |
|
图像修复(Inpainting)技术的前沿模型与数据集资源汇总 CV技术指南 · 公众号 · · 3 周前 · 访问文章快照 |