主要观点总结
文章介绍了公众号QbitAI提出的具备原生中文理解能力的Bridge Diffusion Model(BDM)。BDM是一种多模态生成模型,旨在解决AI绘画模型中的世界观偏见问题,特别是在处理中文输入时的模型偏见问题。文章详细阐述了BDM的主要着眼点,包括解决原生中文问题及与Stable Diffusion生态的兼容性。文章还讨论了实现中文AI绘画模型的几种方式,并强调了BDM采用类似ControlNet的分支网络思路的优势。最后,文章提到了360人工智能研究院在多模态理解和多模态生成大模型方面的其他工作,以及BDM被AAAI接收的情况。
关键观点总结
关键观点1: Bridge Diffusion Model(BDM)具备原生中文理解能力,旨在解决AI绘画模型的世界观偏见问题。
BDM由360人工智能研究院提出,最近被AAAI接收,并已开源。
关键观点2: BDM能够生成符合中文文化的形象,关注两个关键问题:原生中文及生成模型的世界观偏见,以及与Stable Diffusion生态的兼容性。
BDM采用类似ControlNet的分支网络思路,可以实现对开源社区的兼容。
关键观点3: 实现中文AI绘画模型的几种方式被讨论,包括英文模型+翻译、英文模型+隐式翻译、英文模型+隐式翻译+微调以及中文数据从头训练。
BDM可以采用不同的网络分支学习不同语言的数据,从而实现原生中文图像生成,并保证生成的图像符合对应语言文化的认知。
关键观点4: 360人工智能研究院在多模态理解和多模态生成大模型方面的其他工作被介绍,包括多模态大模型和可控布局HiCo模型等。
BDM的研发负责人为冷大炜博士,近日的工作被AI领域的top会议AAAI接收。
文章预览
冷大炜 投稿 量子位 | 公众号 QbitAI 具备原生中文理解能力,还兼容Stable Diffusion生态。 最新模型结构 Bridge Diffusion Model 来了。 与Dreambooth模型结合,它生成的穿中式婚礼礼服的歪国明星长这样。 它由360人工智能研究院提出,最近刚被AAAI接收,并已开源。 类似ControlNet的分支网络思路 文生图模型的中文原生问题,一直是一个重点研究问题。 受算力和数据因素的限制,国内大量的中文AI绘画产品背后,实际上很多是以开源的英文模型及其微调模型为能力基座,但是,英文模型包括且不限于SD1.4/1.5/2.1/3.5以及DALLE、Midjourney、Flux等,因为这些模型的训练数据以英文数据为主,因此在生成图像时,主体形象包括人物、物品、建筑、车辆、服饰、标志等, 都存在非常普遍和明显的英文世界观偏见 。 BDM是我们在多模态生成方向比较早期的工作,关注两个关键问
………………………………