入门概念
一张图是怎么「被做出来的」?
你第一次打开 ComfyUI,大概率会有这种感觉:一堆方块连来连去,好像很厉害,但完全不知道它在干嘛。
假设你现在要生成一张图——「草地上晒太阳的女孩」。接下来发生的事情,其实更像是你在和一个画师合作。
第一件事:先找一个「会画画的人」(模型)
Section titled “第一件事:先找一个「会画画的人」(模型)”你不可能随便找个人画,对吧?
- 找写实画师 → 画出来像照片
- 找二次元画师 → 画出来像动漫
这一步在 ComfyUI 里叫:加载模型(Model / Checkpoint)。
你可以把它当成一句人话:「今天是谁来帮我画?」选错人,后面全白搭。
第二件事:把需求说清楚(conditioning)
Section titled “第二件事:把需求说清楚(conditioning)”你跟画师说:「一个女孩,在草地上,有阳光,写实一点。」
这句话不会直接参与「画图」,而是先被翻译成一段模型能理解的信息。这个过程,就是:conditioning(条件输入)。
听起来很技术,其实就是:你说的话,被翻译成 AI 能听懂的版本。说得模糊,画面就模糊;说得离谱,画面就跑偏。
第三件事:从「乱涂」开始改(KSampler + Steps)
Section titled “第三件事:从「乱涂」开始改(KSampler + Steps)”这里是最反直觉、但最关键的一步。
AI 画图,不是从白纸开始,而是从一张完全随机的「噪声图」开始——就像电视没信号时的雪花点。
然后画师开始干活:看一眼你的要求(conditioning),改一点画面;再看一眼,再改一点。
这个「反复修改」的过程,在 ComfyUI 里就是:KSampler。
而你经常看到的 steps(步数),就是在问一件事:「你打算让他改多少次?」
- 改 10 次 → 还很粗糙
- 改 20~30 次 → 基本成型
- 改 100 次 → 有点用力过猛了
所以这一步可以翻译成一句特别直白的话:AI 在一张乱图上,按你的要求,一点点往「像」的方向改。
第四件事:其实已经「画完了」,但你还看不见(latent)
Section titled “第四件事:其实已经「画完了」,但你还看不见(latent)”这里有个很多新手不知道的点:当 AI 停下来时——图其实已经生成了,但你看不了。
因为它存在一种「压缩状态」里(latent)。你可以理解成:已经画好了,但被打包成了一种人看不懂的格式。
第五件事:「翻译器」——变成你能看的图(VAE)
Section titled “第五件事:「翻译器」——变成你能看的图(VAE)”这时候就轮到 VAE 出场了。它的工作只有一个:把那份「看不懂的图」,还原成正常图片。
如果这个「翻译器」不对,就会出现:颜色发灰、对比度奇怪、整体不通透。
所以 VAE 其实决定的是:这张图「看起来舒不舒服」。
用一句话串起来
Section titled “用一句话串起来”到这里,你其实已经走完整个流程了。我们把刚刚发生的事,用一句人话串起来:
你找了一个画师(Model),告诉他你要画什么(conditioning),他从一张乱涂开始,一点点修改(steps),最后通过一个「翻译器」(VAE),把结果变成你能看到的图片。
为什么很多人会卡住?
Section titled “为什么很多人会卡住?”因为他们记的是:
- model 是什么
- VAE 是什么
- steps 是多少
但脑子里没有这条「流水线」。
一旦你用「过程」去理解,就会突然通了:
- 换模型 → 等于换画师
- 改提示词 → 等于重新下指令
- 调 steps → 等于让他多改几遍
- 换 VAE → 等于换一个滤镜/解码方式
一条有用的判断标准
Section titled “一条有用的判断标准”以后你不管学到什么新节点(LoRA、ControlNet、Refiner),都可以问自己一句:
「这个东西,是插在这条流水线的哪一步?」
只要能回答这个问题,你就不会再觉得 ComfyUI 是一堆「黑盒」。
如果你下一步想更进一步,可以继续把这条最基础流程「扩展」一下——比如在「画的过程中」插一个 ControlNet,或者在「画完之后」再细化一遍。那时候你会更明显地感觉到:ComfyUI 本质不是复杂,而是把每一步都摊开给你了。