Consistency Model

Steven 收录于类别 Diffusion/Flow 和系列 Diffusion/Flow系列

2026-02-27 2026-03-25 约 4447 字预计阅读 20 分钟

系列 -

Consistency Model 技术文档（原理 + 自洽性 + 蒸馏/直接训练 + 采样 + 对比）

本文档为正式技术规格文档，系统介绍 Consistency Model 的核心思想、自洽性定义、两种训练范式（Consistency Distillation / Consistency Training）、一步与多步采样，以及与扩散模型、MeanFlow 的对比。

1 文档基本信息

算法名称：Consistency Model（一致性模型）
提出者：Song Yang, Prafulla Dhariwal 等（OpenAI / 独立研究）
发表时间：2023 年（ICML 2023）
核心定位：一步或极少步采样的生成模型
基础依托：扩散模型轨迹上的自洽性（self-consistency）
核心创新：从学习瞬时速度/得分改为学习「轨迹上任意点到数据」的一致性映射 $f_\theta(x_t, t) \to x_1$ ，实现 1-NFE 或少量 NFE 采样

2 背景与动机

2.1 多步扩散的瓶颈

扩散模型与流匹配通过 ODE/SDE 从噪声 $x_0$ 生成数据 $x_1$ ，需对向量场或得分进行多步数值积分（常需 20～50+ 步），推理延迟高。
步数减少会明显损害样本质量，难以在保持质量的前提下做到真正的一步生成。

2.2 Consistency Model 的解决思路

不直接学瞬时速度 $v_t$ 或得分 $\nabla \log p_t$ ，而是学一个一致性函数 $f_\theta$ ：将轨迹上任意点 $(x_t, t)$ 映射到同一轨迹的终点 $x_1$ 。若该映射在整条轨迹上「自洽」，则从噪声 $x_0$ 出发只需一次前向即可得到 $x_1 = f_\theta(x_0, 0)$ ，实现一步生成。

3 核心概念：自洽性（Self-Consistency）

3.1 轨迹与终点

设数据 $x_1 \sim p_{\text{data}}$ ，噪声 $x_0 \sim p_{\text{noise}}$ （如 $\mathcal{N}(0, I)$ ）。扩散或流匹配定义了一条从 $x_0$ 到 $x_1$ 的概率轨迹 $t \mapsto x_t$ （ $t \in [0, 1]$ 或 $[0, T]$ ）。
一致性函数 $f_\theta(x, t)$ ：输入当前状态 $x$ 与时间 $t$ ，输出该轨迹应到达的终点（即数据端样本）。理想情况下，对同一轨迹上的任意 $(x_t, t)$ ，有 $f_\theta(x_t, t) = x_1$ 。

3.2 自洽性定义

自洽性：轨迹上任意两个时刻 $t, t'$ 的状态 $x_t, x_{t'}$ 经 $f_\theta$ 映射到同一终点，即

f_\theta(x_t, t) = f_\theta(x_{t'}, t') = x_1.

因此，模型学的是「从轨迹上任意点指向终点」的映射，并约束其在同一条轨迹上一致。

3.3 边界条件

为与生成过程兼容，通常要求：

$f_\theta(x_1, 1) = x_1$ （在 $t=1$ 时已是数据，终点即自身）；
$f_\theta(x_0, 0) = x_1$ （从噪声 $x_0$ 一步得到数据 $x_1$ ）。

因此一步采样形式为： $x_1 = f_\theta(x_0, 0)$ ， $x_0 \sim p_{\text{noise}}$ 。

4 数学形式化

4.1 符号约定

$x_t \in \mathbb{R}^d$ ：时刻 $t$ 的状态（ $t \in [\varepsilon, 1]$ 或 $[0, T]$ ， $\varepsilon$ 为小正数避免奇异性）。
$x_1 \sim p_{\text{data}}$ ：数据分布。
$x_0$ 或 $x_\varepsilon$ ：噪声端（如高斯）。
$f_\theta(x, t)$ ：一致性模型，输入 $(x, t)$ ，输出与 $x$ 同维的向量，表示「从 $(x, t)$ 所在轨迹的终点」。
教师模型（仅蒸馏时需要）：多步扩散/流 ODE 的向量场或得分，用于从 $x_1$ 生成轨迹并给出「目标终点」估计。

4.2 一致性轨迹（Consistency Trajectory）

设教师（或某个前向过程）给出从 $x_1$ 到噪声的轨迹 $\{ x_t \}_{t \in [\varepsilon, 1]}$ （例如 $x_t$ 为 $x_1$ 加噪后的状态）。若 $f$ 是理想的一致性函数，则对轨迹上任意两点 $(x_t, t)$ 与 $(x_{t'}, t')$ ，有

f(x_t, t) = f(x_{t'}, t') = x_1.

训练目标即让 $f_\theta$ 在数据与噪声生成的轨迹上逼近这一性质。

5 两种训练范式

5.1 Consistency Distillation（CD，一致性蒸馏）

前提：已有训练好的扩散模型（或概率流 ODE）作为教师。

思路：用教师从 $x_1$ 出发，沿 ODE 积分得到轨迹上的点 $(x_t, t)$ ；再用教师从 $x_t$ 积分到终点，得到「目标终点」 $\hat{x}_1$ （通常用多步数值积分近似）。学生 $f_\theta(x_t, t)$ 拟合该目标：

\mathcal{L}_{\text{CD}} = \mathbb{E}_{x_1, t, x_t} \left[ d\bigl( f_\theta(x_t, t),\, \hat{x}_1 \bigr) \right],

其中 $d(\cdot, \cdot)$ 为距离（如 L2）， $x_t$ 由教师前向过程从 $x_1$ 采样得到， $\hat{x}_1$ 由教师从 $x_t$ 反向积分得到。

特点：

依赖预训练扩散/流模型，两阶段（先训教师，再训一致性模型）。
目标 $\hat{x}_1$ 来自数值积分，存在离散化误差，理论上是近似目标。

5.2 Consistency Training（CT，一致性训练）

前提：无需教师，仅需数据 $x_1 \sim p_{\text{data}}$ 。

思路：用某种前向过程从 $x_1$ 得到 $x_t$ （例如加噪 $x_t = \alpha_t x_1 + \sigma_t \epsilon$ ），并构造「目标终点」。一种常见做法是：对同一 $x_1$ ，取两个不同时间 $t > t'$ ，得到 $x_t, x_{t'}$ ，约束 $f_\theta(x_t, t)$ 与 $f_\theta(x_{t'}, t')$ 一致（都应为 $x_1$ ），即

\mathcal{L}_{\text{CT}} = \mathbb{E}_{x_1, t, t', x_t, x_{t'}} \left[ d\bigl( f_\theta(x_t, t),\, f_\theta(x_{t'}, t') \bigr) \right],

或直接约束 $f_\theta(x_t, t) \to x_1$ （若 $x_1$ 可作为目标）。实际实现中常配合课程学习：先在小范围 $t$ （接近数据）上训练，再逐步扩大到更大 $t$ （接近噪声）。

特点：

单阶段，不依赖教师。
目标构造和课程设计需要较多设计，理论偏启发式。

6 采样方式

6.1 一步采样（1-NFE）

x_0 \sim p_{\text{noise}},\quad x_1 = f_\theta(x_0, 0).

一次前向即得样本，延迟最低。

6.2 多步采样（可选）

可将区间 $[0, 1]$ 划分为 $0 = t_0 < t_1 < \cdots < t_K = 1$ ，从 $x_{t_0} = x_0 \sim p_{\text{noise}}$ 出发，迭代：

x_{t_{k+1}} = f_\theta(x_{t_k}, t_k) + \text{（可选）修正项},

或使用论文中的多步更新公式，用更多步数换取更高样本质量。

7 算法流程小结

7.1 CD 训练（简化）

采样数据 $x_1 \sim p_{\text{data}}$ 。
采样时间 $t$ ，用教师前向过程得到 $x_t$ 。
用教师从 $x_t$ 积分到终点，得到目标 $\hat{x}_1$ 。
前向 $f_\theta(x_t, t)$ ，最小化 $d(f_\theta(x_t, t), \hat{x}_1)$ 更新 $\theta$ 。

7.2 CT 训练（简化）

采样数据 $x_1 \sim p_{\text{data}}$ 。
采样时间 $t, t'$ ，用前向过程得到 $x_t, x_{t'}$ 。
前向 $f_\theta(x_t, t)$ 与 $f_\theta(x_{t'}, t')$ ，最小化二者差异（或与 $x_1$ 的差异）更新 $\theta$ 。

7.3 推理（一步）

$x_0 \sim p_{\text{noise}}$ 。
$x_1 = f_\theta(x_0, 0)$ ，输出 $x_1$ 。

8 与其他模型的对比

维度	扩散 / 流匹配	Consistency Model	MeanFlow
学习目标	瞬时速度 $v_t$ 或得分 $\nabla \log p_t$	一致性映射 $f_\theta(x_t, t) \to x_1$	区间平均速度 $u(z_t, r, t)$
采样步数	多步积分（常 20+ 步）	1 步或少量多步	1 步 $z_1 = z_0 + u_\theta(z_0, 0, 1)$
训练	单阶段，目标解析（如 flow matching）	CD 依赖教师两阶段；CT 单阶段但需课程等设计	单阶段，目标由恒等式解析给出
理论	基于 ODE/SDE、概率路径，较闭合	自洽性 + 蒸馏/启发式目标，非完全闭合	从平均速度定义严格推导，完全闭合

9 适用场景

需要极低延迟的生成（一步或少数几步）。
有现成扩散/流模型时可做 CD 压缩为一致性模型；无教师时可考虑 CT。
与 MeanFlow 相比：Consistency Model 更依赖蒸馏或启发式训练；MeanFlow 用平均速度 + 严格恒等式，单阶段、理论闭合，同样支持一步生成。

10 参考文献

Song Yang, Prafulla Dhariwal, et al., Consistency Models, ICML 2023.
相关：Flow Matching、DDPM、Probability Flow ODE、MeanFlow（一步生成、平均速度场）。

目录

目录

Consistency Model

1 文档基本信息

2 背景与动机

2.1 多步扩散的瓶颈

2.2 Consistency Model 的解决思路

3 核心概念：自洽性（Self-Consistency）

3.1 轨迹与终点

3.2 自洽性定义

3.3 边界条件

4 数学形式化

4.1 符号约定

4.2 一致性轨迹（Consistency Trajectory）

5 两种训练范式

5.1 Consistency Distillation（CD，一致性蒸馏）

5.2 Consistency Training（CT，一致性训练）

6 采样方式

6.1 一步采样（1-NFE）

6.2 多步采样（可选）

7 算法流程小结

7.1 CD 训练（简化）

7.2 CT 训练（简化）

7.3 推理（一步）

8 与其他模型的对比

9 适用场景

10 参考文献

相关内容

目录

Consistency Model

1 文档基本信息

2 背景与动机

2.1 多步扩散的瓶颈

2.2 Consistency Model 的解决思路

3 核心概念：自洽性（Self-Consistency）

3.1 轨迹与终点

3.2 自洽性定义

3.3 边界条件

4 数学形式化

4.1 符号约定

4.2 一致性轨迹（Consistency Trajectory）

5 两种训练范式

5.1 Consistency Distillation（CD，一致性蒸馏）

5.2 Consistency Training（CT，一致性训练）

6 采样方式

6.1 一步采样（1-NFE）

6.2 多步采样（可选）

7 算法流程小结

7.1 CD 训练（简化）

7.2 CT 训练（简化）

7.3 推理（一步）

8 与其他模型的对比

9 适用场景

10 参考文献

相关内容

Analytic Diffusion Studio — 技术文档索引

Analytic Diffusion Studio — 项目总览

smalldiffusion 技术文档索引

smalldiffusion 项目总览

todo