主要观点总结
文章讨论了视觉生成赛道中的视觉信号拆分问题,指出大语言模型成功的原因在于文本信号拆分的等变性。对于图像信号拆分,目前存在多种方法但都不具备等变性,导致一系列问题。文章还讨论了扩散模型是否是最太似然模型、扩散模型的scaling law等问题。
关键观点总结
关键观点1: 视觉信号拆分问题
文章指出视觉生成模型的目标时拟合目标数据分布,由于目标数据分布过于复杂,往往需要将复杂的信号做拆分。目前针对图像信号的拆分方式包括图像块拆分、深度拆分、噪声强度拆分以及可学习拆分等,但这些方式都不具备等变性。
关键观点2: 大语言模型的等变性
文章解释了为什么大语言模型能够成功,其本质原因在于文本信号拆分具有等变性。对于一个文本序列,语言模型会根据位置把联合数据分布拆分成多个条件概率分布拟合问题。
关键观点3: 扩散模型与最大似然模型的关系
文章讨论了扩散模型是否是最太似然模型的问题。虽然DDPM从最大似然的角度出发推导了扩散模型的理论,但扩散模型并非严格意义上的最大似然模型。
关键观点4: 扩散模型的scaling law
文章讨论了扩散模型的scaling law问题。目前对于扩散模型的scaling law的衡量指标存在争议,可以采用不同任务的难度系数当重要性系数、利用已有的生成模型衡量指标如FID、直接采用人工标注衡量模型质量等方式来衡量。
文章预览
古纾旸 投稿 量子位 | 公众号 QbitAI 文生图、文生视频,视觉生成赛道火热,但仍存在亟需解决的问题。 微软亚洲研究院研究员古纾旸对此进行了梳理,他认为 视觉信号拆分是最本质的问题 。 生成模型的目标是拟合目标数据分布,然而,目标数据分布过于复杂,难以直接拟合。 因此,往往需要将复杂的信号做拆分,拆分成多个简单的分布拟合问题,再分别求解。信号拆分方式的不同产生了不同的生成模型。 此外,针对一些热点问题他也展开进行了分析,一共六大问题,例如diffusion模型是否是最大似然模型?diffusion模型的scaling law是什么样的? 以下是部分问题的具体讨论。 视觉信号拆分问题 为什么大语言模型能这么成功? 作者认为,最本质的原因是 文本信号拆分具有“等变性” 。 具体来说,对于一个文本序列A=x 0 ,x 1 ,x 2 …语言模型会根据位
………………………………