文章预览
©PaperWeekly 原创 · 作者 | 古纾旸 单位 | 微软亚洲研究院研究员 研究方向 | 视觉生成 当今视觉生成问题非常火热,文生图,文生视频等方向取得了很好的进展。然而视觉生成中仍然有非常重要的一些问题亟需解决,本文将对这些问题进行梳理。 生成模型的目标是拟合目标数据分布,然而,目标数据分布往往过于复杂,难以直接拟合。因此,往往需要将复杂的信号做拆分,拆分成多个简单的分布拟合问题,再分别求解。根据信号拆分方式的不同,产生了不同的生成模型。 视觉信号拆分问题 为 什么大语言模型这么成功呢?作者认为,最本质的原因是文本信号拆分具有“等变性”。具体来说,对于一个文本序列 会根据位置把 的联合数据分布拆分成多个条件概率分布拟合问题: 对于一个文本,比如说“我喜欢打篮球”,用自回归的方式进行拟
………………………………