Skip to content

入门概念

一张图是怎么「被做出来的」?

你第一次打开 ComfyUI,大概率会有这种感觉:一堆方块连来连去,好像很厉害,但完全不知道它在干嘛。

假设你现在要生成一张图——「草地上晒太阳的女孩」。接下来发生的事情,其实更像是你在和一个画师合作。

第一件事:先找一个「会画画的人」(模型)

Section titled “第一件事:先找一个「会画画的人」(模型)”

你不可能随便找个人画,对吧?

  • 找写实画师 → 画出来像照片
  • 找二次元画师 → 画出来像动漫

这一步在 ComfyUI 里叫:加载模型(Model / Checkpoint)

你可以把它当成一句人话:「今天是谁来帮我画?」选错人,后面全白搭。

第二件事:把需求说清楚(conditioning)

Section titled “第二件事:把需求说清楚(conditioning)”

你跟画师说:「一个女孩,在草地上,有阳光,写实一点。」

这句话不会直接参与「画图」,而是先被翻译成一段模型能理解的信息。这个过程,就是:conditioning(条件输入)

听起来很技术,其实就是:你说的话,被翻译成 AI 能听懂的版本。说得模糊,画面就模糊;说得离谱,画面就跑偏。

第三件事:从「乱涂」开始改(KSampler + Steps)

Section titled “第三件事:从「乱涂」开始改(KSampler + Steps)”

这里是最反直觉、但最关键的一步。

AI 画图,不是从白纸开始,而是从一张完全随机的「噪声图」开始——就像电视没信号时的雪花点。

然后画师开始干活:看一眼你的要求(conditioning),改一点画面;再看一眼,再改一点。

这个「反复修改」的过程,在 ComfyUI 里就是:KSampler

而你经常看到的 steps(步数),就是在问一件事:「你打算让他改多少次?」

  • 改 10 次 → 还很粗糙
  • 改 20~30 次 → 基本成型
  • 改 100 次 → 有点用力过猛了

所以这一步可以翻译成一句特别直白的话:AI 在一张乱图上,按你的要求,一点点往「像」的方向改。

第四件事:其实已经「画完了」,但你还看不见(latent)

Section titled “第四件事:其实已经「画完了」,但你还看不见(latent)”

这里有个很多新手不知道的点:当 AI 停下来时——图其实已经生成了,但你看不了。

因为它存在一种「压缩状态」里(latent)。你可以理解成:已经画好了,但被打包成了一种人看不懂的格式。

第五件事:「翻译器」——变成你能看的图(VAE)

Section titled “第五件事:「翻译器」——变成你能看的图(VAE)”

这时候就轮到 VAE 出场了。它的工作只有一个:把那份「看不懂的图」,还原成正常图片。

如果这个「翻译器」不对,就会出现:颜色发灰、对比度奇怪、整体不通透。

所以 VAE 其实决定的是:这张图「看起来舒不舒服」。

到这里,你其实已经走完整个流程了。我们把刚刚发生的事,用一句人话串起来:

你找了一个画师(Model),告诉他你要画什么(conditioning),他从一张乱涂开始,一点点修改(steps),最后通过一个「翻译器」(VAE),把结果变成你能看到的图片。

因为他们记的是:

  • model 是什么
  • VAE 是什么
  • steps 是多少

但脑子里没有这条「流水线」。

一旦你用「过程」去理解,就会突然通了:

  • 换模型 → 等于换画师
  • 改提示词 → 等于重新下指令
  • 调 steps → 等于让他多改几遍
  • 换 VAE → 等于换一个滤镜/解码方式

以后你不管学到什么新节点(LoRA、ControlNet、Refiner),都可以问自己一句:

「这个东西,是插在这条流水线的哪一步?」

只要能回答这个问题,你就不会再觉得 ComfyUI 是一堆「黑盒」。

如果你下一步想更进一步,可以继续把这条最基础流程「扩展」一下——比如在「画的过程中」插一个 ControlNet,或者在「画完之后」再细化一遍。那时候你会更明显地感觉到:ComfyUI 本质不是复杂,而是把每一步都摊开给你了。