文章预览
LLM推理优化系统工程概述 作者:阿桂 原文地址:https://zhuanlan.zhihu.com/p/4825348572 截止到目前市面上比较主流的基于文字生成影像的模型都是基于了3大部分组成的。 Encoder Model , Generation Model ,Decoder Model。并且这三个部分是分开训练,然后组合在一起从而构成了文生图大模型。 图片来源于B站李宏毅教授讲问生图原理,侵删。 下面我们可以看一下Stable Diffusion, DAll -E ,以及Imagen的架构示意图。它们基本上也都是基于这三大部分构成的。 一、关键的前置认知: 1.1 基础概念: FID分数: 是一种衡量生成图像质量的指标,较低的FID分数表示更好的图像质量。 "red points: real images" 表示红色点代表真实图像的特征向量。 "blue points: generated images" 表示蓝色点代表生成图像的特征向量。 "FID = Frechet distance between the two Gaussians" 表示FID是两个高斯分布之间的弗雷歇距
………………………………