|
LLaVA-OneVision|更加高级的LLaVA,轻松的视觉任务转移 FightingCV · 公众号 · · 4 月前 · 访问文章快照 |
|
对齐器: 通过学习校正实现高效对齐 FightingCV · 公众号 · · 4 月前 · 访问文章快照 |
|
Emo-DPO:通过直接偏好优化实现可控的情绪语音合成 FightingCV · 公众号 · · 4 月前 · 访问文章快照 |
|
Jiaya Jia团队提出LLaMA-VID :一张图片在大型语言模型中值两个token FightingCV · 公众号 · · 4 月前 · 访问文章快照 |
|
mamba和Tranformer融合:通过混合架构高效扩展多模态大语言模型到 1000 张图像 FightingCV · 公众号 · · 4 月前 · 访问文章快照 |
|
小米提出MobileVLM:一种用于增强UI内部和跨UI理解的视觉语言模型 FightingCV · 公众号 · · 4 月前 · 访问文章快照 |
|
T2I-CompBench:一个用于开放式世界组合式文本到图像生成的综合基准 FightingCV · 公众号 · · 4 月前 · 访问文章快照 |
|
Molmo 和 PixMo: 开放权重和开放数据的最先进的多模态大模型 FightingCV · 公众号 · · 4 月前 · 访问文章快照 |
|
MG-LMM | 指令引导的多粒度分割和字幕与大型多模态模型 FightingCV · 公众号 · · 4 月前 · 访问文章快照 |
|
Llama 3.2全文翻译:通过开放、可定制的模型彻底改变边缘 AI 和视觉 FightingCV · 公众号 · · 4 月前 · 访问文章快照 |
|
如何提升多模态大模型视觉推理能力?浙大杰青团队的新型自指导方案给出答案 FightingCV · 公众号 · AI 科技媒体 · 4 月前 · 访问文章快照 |
|
THU鲁继文&NTU刘子纬团队联手发布 Oryx MLLM:实时应对任意分辨率的时空理解 FightingCV · 公众号 · · 4 月前 · 访问文章快照 |
|
SlowFast-LLaVA | Apple团队提出视频大语言模型的强大免训练基线 FightingCV · 公众号 · · 4 月前 · 访问文章快照 |
|
AAA24 |震撼发布!95.3% 像素级 AUC:最强异常检测模型 SOTA 现已开源! FightingCV · 公众号 · · 4 月前 · 访问文章快照 |
|
Google推出MaskGIT:革新图像生成的掩码式Transformer FightingCV · 公众号 · · 4 月前 · 访问文章快照 |
|
英伟达发布NVLM:超越GPT4o,开源先锋塑造多模态AI新时代 FightingCV · 公众号 · · 4 月前 · 访问文章快照 |
|
TG-LLaVA|沈春华团队提出通过可学习的潜在嵌入进行文本引导的 LLaVA FightingCV · 公众号 · · 4 月前 · 访问文章快照 |
|
CVPR2025投稿规定再次更新 FightingCV · 公众号 · · 5 月前 · 访问文章快照 |
|
ECCV2024 | 一张图实现街道级定位,端到端图像地理定位大模型AddressCLIP FightingCV · 公众号 · · 5 月前 · 访问文章快照 |
|
召唤100多位学者打分,斯坦福新研究:「AI科学家」创新确实强 FightingCV · 公众号 · · 5 月前 · 访问文章快照 |