文章预览
本文转自微信公众号“量子位”,作者:关注前沿科技。 古纾旸 投稿 量子位 | 公众号 QbitAI 文生图、文生视频,视觉生成赛道火热,但仍存在亟需解决的问题。 微软亚洲研究院研究员古纾旸对此进行了梳理,他认为 视觉信号拆分是最本质的问题 。 生成模型的目标是拟合目标数据分布,然而,目标数据分布过于复杂,难以直接拟合。 因此,往往需要将复杂的信号做拆分,拆分成多个简单的分布拟合问题,再分别求解。信号拆分方式的不同产生了不同的生成模型。 此外,针对一些热点问题他也展开进行了分析,一共六大问题,例如diffusion模型是否是最大似然模型?diffusion模型的scaling law是什么样的? 以下是部分问题的具体讨论。 视觉信号拆分问题 为什么大语言模型能这么成功? 作者认为,最本质的原因是 文本信号拆分具有“等变性” 。 具体
………………………………