今天看啥  ›  专栏  ›  机器之心

扩散模型训练方法一直错了!谢赛宁:Representation matters

机器之心  · 公众号  · AI  · 2024-10-14 12:10

主要观点总结

纽约大学研究者谢赛宁提出了REPA技术,即表征对齐技术,以提高扩散模型的训练效率和效果。该技术利用预训练的自监督视觉表征进行训练,能够让训练扩散Transformer变得更简单。

关键观点总结

关键观点1: REPA技术的提出背景和重要性

纽约大学著名研究者谢赛宁发现,即使对生成模型而言,表征依然有用。他们提出的REPA技术,即表征对齐技术,能使训练扩散模型变得比想象中更简单。

关键观点2: REPA技术的核心思想

REPA技术是一种基于扩散Transformer架构的正则化方法,使用预训练的自监督视觉表征进行训练,将预训练的自监督视觉表征蒸馏到扩散Transformer模型中,以提高模型的性能。

关键观点3: REPA技术的效果

REPA技术能大幅提高模型训练的效率和效果。相比于原生模型,REPA能将收敛速度提升17.5倍以上。在生成质量方面,使用REPA的新方法取得了当前最佳结果。

关键观点4: REPA技术的实现方式

REPA技术通过将模型隐藏状态的patch-wise投影与预训练自监督视觉表征对齐来实现。具体来说,该技术使用干净的图像表征作为目标,并通过最大化预训练表征和隐藏状态之间的patch-wise相似性来实现对齐。

关键观点5: REPA技术的可扩展性和应用前景

REPA技术在各个方面都展现出强大的可扩展性,与更好的视觉表征相结合可以改善生成和线性探测结果。此外,REPA还提供了显著的速度提升,并在大型模型中表现更出色。


文章预览

机器之心报道 编辑:Panda、小舟 Representation matters. Representation matters. Representation matters. 是什么让纽约大学著名研究者谢赛宁三连呼喊「Representation matters」?他表示:「我们可能一直都在用错误的方法训练扩散模型。」即使对生成模型而言,表征也依然有用。基于此,他们提出了 REPA,即表征对齐技术,其能让「训练扩散 Transformer 变得比你想象的更简单。」 Yann LeCun 也对他们的研究表示了认可:「我们知道,当使用自监督学习训练视觉编码器时,使用具有重构损失的解码器的效果远不如使用具有特征预测损失和崩溃预防机制的联合嵌入架构。这篇来自纽约大学 @sainingxie 的论文表明,即使你只对生成像素感兴趣(例如使用扩散 Transformer 生成漂亮图片),也应该包含特征预测损失,以便解码器的内部表征可以根据预训练的视觉编码器(例如 DINOv2)预 ………………………………

原文地址:访问原文地址
快照地址: 访问文章快照
总结与预览地址:访问总结与预览