文章预览
AIGC Research 主编| 庄才林(Cailin Zhuang) 技术支持|胡耀淇(Yaoqi Hu) Topic: Multi-modal|Fashion Retrieval and Generation, Facial Emotion Understanding, Geometric Reasoning UniFashion: A Unified Vision-Language Model for Multimodal Fashion Retrieval and Generation 2024-08-21|PolyU, WHU|⭐️ http://arxiv.org/abs/2408.11305v1 https://github.com/xiangyu-mm/UniFashion 概述 UniFashion 是一个融合了视觉和语言数据的统一模型,它专门应对时尚领域的多模态检索和生成任务 。随着人工智能技术的进步,尤其是在生成模型(如大型语言模型和扩散模型)方面,UniFashion 应运而生,以解决目前时尚领域多模态任务中存在的诸多挑战。 现有的多模态大规模语言模型(MLLMs)仍然面临对图像生成能力不足的局限,而 UniFashion 通过将检索与生成任务结合,实现了更好的多模态嵌入和生成能力 。研究证明,该模型在多个时尚任务
………………………………