文章预览
本文由南方科技大学、腾讯优图实验室、阿尔伯塔大学、上海交通大学合作完成,已被 ICLR 2025 会议接收。 完整论文、数据和代码均已开源。 论文标题: MMAD: The First-Ever Comprehensive Benchmark for Multimodal Large Language Models in Industrial Anomaly Detection 论文地址: https://openreview.net/forum?id=JDiER86r8v 代码地址: https://github.com/jam-cc/MMAD Huggingface地址: https://huggingface.co/datasets/jiang-cc/MMAD 引言:让 AI 为工业生产力注入新动能 近年来,随着深度学习技术的飞速发展,多模态大语言模型(MLLMs)在多个领域展现了卓越的能力。从生成高质量文本到处理复杂的数学推理,从棋类博弈到视频生成,这些模型不仅超越了人类的表现,还不断拓展着人工智能的应用边界。 然而,一个有趣的现象是,AI 的发展似乎率先在“高价值劳动”领域崭露头角,而在许多基础性、重复性的工
………………………………