文章预览
Show-o大致如下: 作者:Mike Shou 链接:https://www.zhihu.com/question/665151133/answer/3608387516 来源:知乎 好久没来知乎了,简单总结下做这个工作的motivation: 1. 宏观来看,当下LLM和Diffusion,都太卷了,进入到靠公司堆资源的阶段。 作为科研人员需要破局,更重要的是定义问题,如何将LLM/AR和Diffusion结合,就是一个under-explored的新问题,适合做科研。当下还比较早期,show-o/transfusion都肯定不是最终形态,期待大家一起来探索。show-o只有1.3B,也是为了大家更容易做改进。 2. 为什么结合LLM/AR和Diffusion,是个有意义的问题? a. 主要还是从第一性原理来考虑。最终的Foundation Model,我们觉得会是个大一统模型,既能做生成,也能做理解,生成和理解的能力相辅相成。输入和输出,都可以是interleaved的text, image, video等的随意组合。 b. 最终的Foundation Model,会
………………………………