专栏名称: 深度学习自然语言处理

一个从大三就接触NLP的小小NLPer，本公众号每天记录自己的一点一滴，每篇文章最后也有托福单词等新知识，学技术同时，也一点一滴积累额外的知识。期待与你在知识的殿堂与你相遇！

我也要提交微信公众号

今天看啥

微信公众号rss订阅, 微信rss, 稳定的RSS源

微信公众号RSS订阅方法

B站投稿RSS订阅方法

雪球动态RSS订阅方法

微博RSS订阅方法

微博搜索关键词订阅方法

豆瓣日记 RSS订阅方法

如何看待 Show-o 和 Transfusion 等 AR+Diffusion 的工作？

深度学习自然语言处理 · 公众号 · · 2024-08-29 15:27

文章预览

Show-o大致如下：作者：Mike Shou 链接：https://www.zhihu.com/question/665151133/answer/3608387516 来源：知乎好久没来知乎了，简单总结下做这个工作的motivation： 1. 宏观来看，当下LLM和Diffusion，都太卷了，进入到靠公司堆资源的阶段。作为科研人员需要破局，更重要的是定义问题，如何将LLM/AR和Diffusion结合，就是一个under-explored的新问题，适合做科研。当下还比较早期，show-o/transfusion都肯定不是最终形态，期待大家一起来探索。show-o只有1.3B，也是为了大家更容易做改进。 2. 为什么结合LLM/AR和Diffusion，是个有意义的问题？ a. 主要还是从第一性原理来考虑。最终的Foundation Model，我们觉得会是个大一统模型，既能做生成，也能做理解，生成和理解的能力相辅相成。输入和输出，都可以是interleaved的text, image, video等的随意组合。 b. 最终的Foundation Model，会 ………………………………

原文地址：访问原文地址
快照地址：访问文章快照
总结与预览地址：访问总结与预览

分享到微博