一个从大三就接触NLP的小小NLPer,本公众号每天记录自己的一点一滴,每篇文章最后也有托福单词等新知识,学技术同时,也一点一滴积累额外的知识。期待与你在知识的殿堂与你相遇!
今天看啥  ›  专栏  ›  深度学习自然语言处理

如何看待 Show-o 和 Transfusion 等 AR+Diffusion 的工作?

深度学习自然语言处理  · 公众号  ·  · 2024-08-29 15:27

文章预览

Show-o大致如下: 作者:Mike Shou 链接:https://www.zhihu.com/question/665151133/answer/3608387516 来源:知乎 好久没来知乎了,简单总结下做这个工作的motivation: 1. 宏观来看,当下LLM和Diffusion,都太卷了,进入到靠公司堆资源的阶段。 作为科研人员需要破局,更重要的是定义问题,如何将LLM/AR和Diffusion结合,就是一个under-explored的新问题,适合做科研。当下还比较早期,show-o/transfusion都肯定不是最终形态,期待大家一起来探索。show-o只有1.3B,也是为了大家更容易做改进。 2. 为什么结合LLM/AR和Diffusion,是个有意义的问题?     a. 主要还是从第一性原理来考虑。最终的Foundation Model,我们觉得会是个大一统模型,既能做生成,也能做理解,生成和理解的能力相辅相成。输入和输出,都可以是interleaved的text, image, video等的随意组合。     b. 最终的Foundation Model,会 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览