专栏名称: 量子位
վ'ᴗ' ի 追踪AI行业和技术动态,这里更快一步!关注我们,回复“今天”,更多大新闻等你来发现
今天看啥  ›  专栏  ›  量子位

MSRA:视觉生成六大技术问题

量子位  · 公众号  · AI  · 2024-07-13 10:56

文章预览

古纾旸 投稿 量子位 | 公众号 QbitAI 文生图、文生视频,视觉生成赛道火热,但仍存在亟需解决的问题。 微软亚洲研究院研究员古纾旸对此进行了梳理,他认为 视觉信号拆分是最本质的问题 。 生成模型的目标是拟合目标数据分布,然而,目标数据分布过于复杂,难以直接拟合。 因此,往往需要将复杂的信号做拆分,拆分成多个简单的分布拟合问题,再分别求解。信号拆分方式的不同产生了不同的生成模型。 此外,针对一些热点问题他也展开进行了分析,一共六大问题,例如diffusion模型是否是最大似然模型?diffusion模型的scaling law是什么样的? 以下是部分问题的具体讨论。 视觉信号拆分问题 为什么大语言模型能这么成功? 作者认为,最本质的原因是 文本信号拆分具有“等变性” 。 具体来说,对于一个文本序列A=x 0 ,x 1 ,x 2 …语言模型会根据位 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览