专栏名称: 将门创投
将门是一家专注于发掘及加速技术创新激活商业价值的创业公司的创投机构。将门旗下设有将门创新服务、将门技术社群以及将门投资基金。关注领域包括机器智能、物联网、自然人机交互、企业计算。
今天看啥  ›  专栏  ›  将门创投

如何分解视觉信号?一文浅谈视觉生成领域存在的若干问题

将门创投  · 公众号  · 科技创业  · 2024-09-04 08:22

文章预览

当今视觉生成问题非常火热,文生图,文生视频等方向取得了很好的进展。然而视觉生成中仍然有非常重要的一些问题亟需解决,本文将对这些问题进行梳理。 生成模型的目标是拟合目标数据分布,然而,目标数据分布往往过于复杂,难以直接拟合。因此,往往需要将复杂的信号做拆分,拆分成多个简单的分布拟合问题,再分别求解。根据信号拆分方式的不同,产生了不同的生成模型。 一、视觉信号拆分问题 为什么大语言模型这么成功呢?作者认为,最本质的原因是文本信号拆分具有“等变性”。具体来说,对于一个文本序列 会根据位置把 的联合数据分布拆分成多个条件概率分布拟合问题:  对于一个文本,比如说“我喜欢打篮球”,用自回归的方式进行拟合,那么从“打”回归“篮球”这个任务,和位置没有关系。 也就是说,对于第一个 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览