DDPM原理详解

Steven 收录于类别 Diffusion/Flow 和系列 Diffusion/Flow系列

2026-02-28 2026-02-28 约 9591 字预计阅读 43 分钟

系列 -

一、前向过程

前向过程将数据 $x^{(0)} \sim p_\text{data}$ 逐步加噪，得到 $x^{(1)}, \ldots, x^{(T)}$ ，最终 $x^{(T)}$ 近似标准高斯。下面给出定义与单步转移、多步边际 $q(x^{(t)} \mid x^{(0)})$ 的闭式推导，以及重参数化形式。

1. 定义与记号

前向过程是马尔可夫链： $x^{(0)} \rightarrow x^{(1)} \rightarrow \cdots \rightarrow x^{(T)}.$
固定方差序列 $\beta_1, \ldots, \beta_T \in (0,1)$ ，令 $\alpha_t = 1 - \beta_t, \qquad \bar\alpha_t = \prod_{s=1}^{t} \alpha_s.$ （约定 $\bar\alpha_0 = 1$ 。）

2. 单步转移（定义）

前向的单步转移取为均值缩小、方差固定的高斯：

q(x^{(t)} \mid x^{(t-1)}) = \mathcal{N}\big(x^{(t)};\ \sqrt{1-\beta_t}\, x^{(t-1)},\ \beta_t \mathbf{I}\big) = \mathcal{N}\big(x^{(t)};\ \sqrt{\alpha_t}\, x^{(t-1)},\ \beta_t \mathbf{I}\big).

等价地，可写成重参数化形式（便于采样与推导）：

x^{(t)} = \sqrt{\alpha_t}\, x^{(t-1)} + \sqrt{\beta_t}\, \varepsilon_{t}, \qquad \varepsilon_t \sim \mathcal{N}(0, \mathbf{I}),\ \text{i.i.d.}

3. 多步边际 $q(x^{(t)} \mid x^{(0)})$ 的闭式

我们希望对中间步积分，得到从 $x^{(0)}$ 一步到 $x^{(t)}$ 的分布 $q(x^{(t)} \mid x^{(0)})$ ，并证明它仍是单高斯且有闭式。

3.1 递推： $x^{(t)}$ 用 $x^{(0)}$ 与噪声表示

由单步形式反复代入：

\begin{aligned} x^{(1)} &= \sqrt{\alpha_1}\, x^{(0)} + \sqrt{\beta_1}\, \varepsilon_1, \\ x^{(2)} &= \sqrt{\alpha_2}\, x^{(1)} + \sqrt{\beta_2}\, \varepsilon_2 = \sqrt{\alpha_2\alpha_1}\, x^{(0)} + \sqrt{\alpha_2\beta_1}\, \varepsilon_1 + \sqrt{\beta_2}\, \varepsilon_2, \\ &\vdots \end{aligned}

一般地， $x^{(t)}$ 可写成 $x^{(0)}$ 与 $\varepsilon_1,\ldots,\varepsilon_t$ 的线性组合。由于各 $\varepsilon_s$ 独立且与 $x^{(0)}$ 独立，该线性组合仍为高斯，只需求其均值与方差。下面推导中会自然出现 $\bar\alpha_t = \prod_{s=1}^{t}\alpha_s$ 。

3.2 均值与 $\sqrt{\bar\alpha_t}$ 的推导

记 $x^{(t)}$ 中 $x^{(0)}$ 的系数为 $c_t$ 。由递推：

$x^{(1)} = \sqrt{\alpha_1}\, x^{(0)} + \cdots$ ，故 $c_1 = \sqrt{\alpha_1}$ ；
$x^{(t)} = \sqrt{\alpha_t}\, x^{(t-1)} + \sqrt{\beta_t}\, \varepsilon_t$ ，若 $x^{(t-1)}$ 中 $x^{(0)}$ 的系数为 $c_{t-1}$ ，则 $x^{(t)}$ 中 $x^{(0)}$ 的系数为 $c_t = \sqrt{\alpha_t}\, c_{t-1}$ 。

因此

c_t = \sqrt{\alpha_t}\, c_{t-1} = \sqrt{\alpha_t\,\alpha_{t-1}}\, c_{t-2} = \cdots = \sqrt{\alpha_t \cdots \alpha_1} = \sqrt{\prod_{s=1}^{t}\alpha_s} = \sqrt{\bar\alpha_t}.

$\mathbb{E}[\varepsilon_s]=0$ ，故

\mathbb{E}[x^{(t)} \mid x^{(0)}] = \sqrt{\bar\alpha_t}\, x^{(0)}.

3.3 方差与 $(1-\bar\alpha_t)$ 的推导

记 $v_t = \mathrm{Var}(x^{(t)} \mid x^{(0)})$ （标量方差，各维度独立且相同）。由 $x^{(t)} = \sqrt{\alpha_t}\, x^{(t-1)} + \sqrt{\beta_t}\, \varepsilon_t$ ，且 $x^{(t-1)}$ 与 $\varepsilon_t$ 在给定 $x^{(0)}$ 下独立，故

v_t = \alpha_t\, v_{t-1} + \beta_t.

利用 $\beta_t = 1 - \alpha_t$ ，代入得

v_t = \alpha_t\, v_{t-1} + (1 - \alpha_t).

递推初值： $x^{(0)}$ 给定无随机性， $v_0 = 0$ 。可验证 $v_1 = \beta_1 = 1 - \alpha_1 = 1 - \bar\alpha_1$ 。

归纳：设 $v_{t-1} = 1 - \bar\alpha_{t-1}$ ，则

v_t = \alpha_t\, (1 - \bar\alpha_{t-1}) + (1 - \alpha_t) = \alpha_t - \alpha_t\bar\alpha_{t-1} + 1 - \alpha_t = 1 - \alpha_t\bar\alpha_{t-1} = 1 - \bar\alpha_t.

因此

\mathrm{Var}(x^{(t)} \mid x^{(0)}) = (1 - \bar\alpha_t)\, \mathbf{I}.

于是：

\boxed{ q(x^{(t)} \mid x^{(0)}) = \mathcal{N}\big(x^{(t)};\ \sqrt{\bar\alpha_t}\, x^{(0)},\ (1-\bar\alpha_t)\,\mathbf{I}\big). }

即：给定 $x^{(0)}$ 时， $x^{(t)}$ 是单高斯，均值 $\sqrt{\bar\alpha_t}\, x^{(0)}$ ，方差 $(1-\bar\alpha_t)\mathbf{I}$ ，与中间步无关，有闭式、可采样、可求密度。

4. 重参数化形式（采样与训练用）

将 $x^{(t)}$ 写成仅依赖 $x^{(0)}$ 与一个标准高斯噪声 $\epsilon$ 的形式，便于实现采样与后续对 $\epsilon$ 的回归：

x^{(t)} = \sqrt{\bar\alpha_t}\, x^{(0)} + \sqrt{1-\bar\alpha_t}\, \epsilon, \qquad \epsilon \sim \mathcal{N}(0, \mathbf{I}).

等价性：右边均值为 $\sqrt{\bar\alpha_t}\, x^{(0)}$ ，方差为 $(1-\bar\alpha_t)\mathbf{I}$ ，与 $q(x^{(t)} \mid x^{(0)})$ 一致；且单步加噪与多步一次加噪在分布上等价（给定 $x^{(0)}$ ），因此训练时可对 $(x^{(0)}, t)$ 随机采样，再按上式生成 $x^{(t)}$ ，让网络预测对应的 $\epsilon$ （即 $\epsilon_\theta(x^{(t)}, t)$ ）。

5. 小结

量	形式
单步转移	$q(x^{(t)} \mid x^{(t-1)}) = \mathcal{N}(\sqrt{\alpha_t}\, x^{(t-1)},\ \beta_t \mathbf{I})$
多步边际	$q(x^{(t)} \mid x^{(0)}) = \mathcal{N}(\sqrt{\bar\alpha_t}\, x^{(0)},\ (1-\bar\alpha_t)\mathbf{I})$
重参数化	$x^{(t)} = \sqrt{\bar\alpha_t}\, x^{(0)} + \sqrt{1-\bar\alpha_t}\, \epsilon,\ \epsilon\sim\mathcal{N}(0,\mathbf{I})$

$\bar\alpha_t$ 随 $t$ 增大而减小，故 $\sqrt{\bar\alpha_t}$ 变小、 $\sqrt{1-\bar\alpha_t}$ 变大， $x^{(t)}$ 中噪声占比增加；当 $t=T$ 且 $\bar\alpha_T \approx 0$ 时， $x^{(T)}$ 近似 $\mathcal{N}(0,\mathbf{I})$ 。
前向过程不包含可学习参数；反向过程才用神经网络拟合 $q(x^{(t-1)} \mid x^{(t)}, x^{(0)})$ 的近似 $p_\theta(x^{(t-1)} \mid x^{(t)})$ 。

二. 反向过程

反向过程从 $x^{(T)} \sim \mathcal{N}(0, \mathbf{I})$ 出发，逐步采样 $x^{(T-1)}, \ldots, x^{(0)}$ ，得到生成样本。目标是用神经网络拟合反向转移 $p_\theta(x^{(t-1)} \mid x^{(t)})$ 。由于不给定 $x^{(0)}$ 时真实反向 $q(x^{(t-1)} \mid x^{(t)})$ 不可解析，我们利用给定 $x^{(0)}$ 时可解析的后验 $q(x^{(t-1)} \mid x^{(t)}, x^{(0)})$ 做推导与训练，再以 $\epsilon_\theta$ 参数化均值，得到最终的反向采样公式。

记号与前向一致： $\alpha_t = 1 - \beta_t$ ， $\bar\alpha_t = \prod_{s=1}^{t}\alpha_s$ 。

1. 反向后验的贝叶斯形式

在给定 $x^{(t)}$ 与 $x^{(0)}$ 时，由贝叶斯公式（前向转移用 $q$ 表示）：

q(x^{(t-1)} \mid x^{(t)}, x^{(0)}) = \frac{q(x^{(t)} \mid x^{(t-1)})\, q(x^{(t-1)} \mid x^{(0)})}{q(x^{(t)} \mid x^{(0)})}.

三项均为前向过程的高斯，有闭式：

$q(x^{(t)} \mid x^{(t-1)}) = \mathcal{N}(x^{(t)}; \sqrt{\alpha_t}\, x^{(t-1)}, \beta_t \mathbf{I})$
$q(x^{(t-1)} \mid x^{(0)}) = \mathcal{N}(x^{(t-1)}; \sqrt{\bar\alpha_{t-1}}\, x^{(0)}, (1-\bar\alpha_{t-1})\mathbf{I})$
$q(x^{(t)} \mid x^{(0)}) = \mathcal{N}(x^{(t)}; \sqrt{\bar\alpha_t}\, x^{(0)}, (1-\bar\alpha_t)\mathbf{I})$

因此上式右边可算出，且后验仍为高斯（高斯的条件仍为高斯）。下面推导其均值 $\tilde\mu_t$ 与方差 $\tilde\beta_t$ 。

2. 后验均值 $\tilde\mu_t$ 与方差 $\tilde\beta_t$ 的推导

记

q(x^{(t-1)} \mid x^{(t)}, x^{(0)}) = \mathcal{N}(x^{(t-1)}; \tilde\mu_t(x^{(t)}, x^{(0)}), \tilde\beta_t \mathbf{I}).

对高斯密度取对数、只保留与 $x^{(t-1)}$ 有关的项（其余并入常数），有

\log q(x^{(t-1)} \mid x^{(t)}, x^{(0)}) = -\frac{1}{2\beta_t}\big\| x^{(t)} - \sqrt{\alpha_t}\, x^{(t-1)} \big\|^2 - \frac{1}{2(1-\bar\alpha_{t-1})}\big\| x^{(t-1)} - \sqrt{\bar\alpha_{t-1}}\, x^{(0)} \big\|^2 + \text{const}.

这是 $x^{(t-1)}$ 的二次型，故后验为高斯。展开并合并 $x^{(t-1)}$ 的二次项与一次项即可得到 $\tilde\beta_t$ 与 $\tilde\mu_t$ 。

2.1 方差 $\tilde\beta_t$

$x^{(t-1)}$ 的二次项系数为

\frac{\alpha_t}{2\beta_t} + \frac{1}{2(1-\bar\alpha_{t-1})} = \frac{\alpha_t(1-\bar\alpha_{t-1}) + \beta_t}{2\beta_t(1-\bar\alpha_{t-1})}.

后验方差满足 $1/\tilde\beta_t = \alpha_t/\beta_t + 1/(1-\bar\alpha_{t-1})$ ，故

\tilde\beta_t = \frac{\beta_t(1-\bar\alpha_{t-1})}{\alpha_t(1-\bar\alpha_{t-1}) + \beta_t}.

利用 $\alpha_t = 1 - \beta_t$ ，分母为

\alpha_t(1-\bar\alpha_{t-1}) + \beta_t = (1-\beta_t)(1-\bar\alpha_{t-1}) + \beta_t = (1-\bar\alpha_{t-1}) - \beta_t(1-\bar\alpha_{t-1}) + \beta_t = 1 - \bar\alpha_t.

因此

\boxed{\tilde\beta_t = \frac{\beta_t(1-\bar\alpha_{t-1})}{1 - \bar\alpha_t}.}

2.2 均值 $\tilde\mu_t$

由二次型配方法或直接写高斯条件均值，可得

\tilde\mu_t(x^{(t)}, x^{(0)}) = \frac{\sqrt{\bar\alpha_{t-1}}\,\beta_t}{1-\bar\alpha_t}\, x^{(0)} + \frac{\sqrt{\alpha_t}(1-\bar\alpha_{t-1})}{1-\bar\alpha_t}\, x^{(t)}.

即

\boxed{\tilde\mu_t = \frac{1}{1-\bar\alpha_t}\Big( \sqrt{\bar\alpha_{t-1}}\,\beta_t\, x^{(0)} + \sqrt{\alpha_t}(1-\bar\alpha_{t-1})\, x^{(t)} \Big).}

3. 用 $\epsilon$ （噪声）表示均值并引入 $\epsilon_\theta$

前向重参数化有 $x^{(t)} = \sqrt{\bar\alpha_t}\, x^{(0)} + \sqrt{1-\bar\alpha_t}\,\epsilon$ ，故

x^{(0)} = \frac{x^{(t)} - \sqrt{1-\bar\alpha_t}\,\epsilon}{\sqrt{\bar\alpha_t}}.

代入 $\tilde\mu_t$ 的表达式，将 $x^{(0)}$ 用 $x^{(t)}$ 与 $\epsilon$ 替换，可化简为仅含 $x^{(t)}$ 与 $\epsilon$ 的形式（推导见下），得到

\tilde\mu_t = \frac{1}{\sqrt{\alpha_t}}\left( x^{(t)} - \frac{\beta_t}{\sqrt{1-\bar\alpha_t}}\,\epsilon \right).

化简步骤：将 $x^{(0)} = (x^{(t)} - \sqrt{1-\bar\alpha_t}\,\epsilon)/\sqrt{\bar\alpha_t}$ 代入

\tilde\mu_t = \frac{\sqrt{\bar\alpha_{t-1}}\,\beta_t}{1-\bar\alpha_t}\, x^{(0)} + \frac{\sqrt{\alpha_t}(1-\bar\alpha_{t-1})}{1-\bar\alpha_t}\, x^{(t)},

第一项变为

\frac{\sqrt{\bar\alpha_{t-1}}\,\beta_t}{(1-\bar\alpha_t)\sqrt{\bar\alpha_t}}\big( x^{(t)} - \sqrt{1-\bar\alpha_t}\,\epsilon \big).

利用 $\bar\alpha_t = \alpha_t \bar\alpha_{t-1}$ 得 $\sqrt{\bar\alpha_{t-1}}/\sqrt{\bar\alpha_t} = 1/\sqrt{\alpha_t}$ ，故第一项为

\frac{\beta_t}{\sqrt{\alpha_t}(1-\bar\alpha_t)}\, x^{(t)} - \frac{\beta_t}{\sqrt{\alpha_t}\sqrt{1-\bar\alpha_t}}\,\epsilon.

第二项为 $\sqrt{\alpha_t}(1-\bar\alpha_{t-1})/(1-\bar\alpha_t)\, x^{(t)}$ 。两者相加， $x^{(t)}$ 的系数为

\frac{\beta_t + \alpha_t(1-\bar\alpha_{t-1})}{\sqrt{\alpha_t}(1-\bar\alpha_t)} = \frac{1-\bar\alpha_t}{\sqrt{\alpha_t}(1-\bar\alpha_t)} = \frac{1}{\sqrt{\alpha_t}},

因此

\tilde\mu_t = \frac{1}{\sqrt{\alpha_t}}\, x^{(t)} - \frac{\beta_t}{\sqrt{\alpha_t}\sqrt{1-\bar\alpha_t}}\,\epsilon = \frac{1}{\sqrt{\alpha_t}}\left( x^{(t)} - \frac{\beta_t}{\sqrt{1-\bar\alpha_t}}\,\epsilon \right).

参数化：采样时没有 $\epsilon$ 与 $x^{(0)}$ ，用神经网络 $\epsilon_\theta(x^{(t)}, t)$ 预测噪声，得到可用的均值

\mu_\theta(x^{(t)}, t) = \frac{1}{\sqrt{\alpha_t}}\left( x^{(t)} - \frac{\beta_t}{\sqrt{1-\bar\alpha_t}}\,\epsilon_\theta(x^{(t)}, t) \right).

4. 最终反向过程公式

模型反向转移（DDPM 中方差取固定 $\tilde\beta_t$ ，不学习）：

p_\theta(x^{(t-1)} \mid x^{(t)}) = \mathcal{N}\big(x^{(t-1)};\ \mu_\theta(x^{(t)}, t),\ \tilde\beta_t \mathbf{I}\big),

其中

\mu_\theta(x^{(t)}, t) = \frac{1}{\sqrt{\alpha_t}}\left( x^{(t)} - \frac{\beta_t}{\sqrt{1-\bar\alpha_t}}\,\epsilon_\theta(x^{(t)}, t) \right), \qquad \tilde\beta_t = \frac{\beta_t(1-\bar\alpha_{t-1})}{1-\bar\alpha_t}.

采样：从 $x^{(T)} \sim \mathcal{N}(0, \mathbf{I})$ 开始，对 $t = T, T-1, \ldots, 1$ 采样

x^{(t-1)} = \mu_\theta(x^{(t)}, t) + \sqrt{\tilde\beta_t}\,\zeta, \qquad \zeta \sim \mathcal{N}(0, \mathbf{I}).

训练目标：在给定 $x^{(0)}$ 与 $t$ 时，按前向采样 $x^{(t)} = \sqrt{\bar\alpha_t}\, x^{(0)} + \sqrt{1-\bar\alpha_t}\,\epsilon$ ，令网络 $\epsilon_\theta(x^{(t)}, t)$ 预测 $\epsilon$ ，最小化例如 $\|\epsilon - \epsilon_\theta(x^{(t)}, t)\|^2$ （或加权 MSE），等价于拟合 $q(x^{(t-1)} \mid x^{(t)}, x^{(0)})$ 的均值。

5. 小结

量	公式
后验方差	$\tilde\beta_t = \dfrac{\beta_t(1-\bar\alpha_{t-1})}{1-\bar\alpha_t}$
后验均值（含 $x^{(0)}$ ）	$\tilde\mu_t = \dfrac{\sqrt{\bar\alpha_{t-1}}\,\beta_t}{1-\bar\alpha_t}\, x^{(0)} + \dfrac{\sqrt{\alpha_t}(1-\bar\alpha_{t-1})}{1-\bar\alpha_t}\, x^{(t)}$
后验均值（含 $\epsilon$ ）	$\tilde\mu_t = \dfrac{1}{\sqrt{\alpha_t}}\left( x^{(t)} - \dfrac{\beta_t}{\sqrt{1-\bar\alpha_t}}\,\epsilon \right)$
模型均值	$\mu_\theta(x^{(t)}, t) = \dfrac{1}{\sqrt{\alpha_t}}\left( x^{(t)} - \dfrac{\beta_t}{\sqrt{1-\bar\alpha_t}}\,\epsilon_\theta(x^{(t)}, t) \right)$
反向采样	$x^{(t-1)} = \mu_\theta(x^{(t)}, t) + \sqrt{\tilde\beta_t}\,\zeta,\ \zeta\sim\mathcal{N}(0,\mathbf{I})$

推导链条：贝叶斯后验 → 高斯闭式 $\tilde\mu_t,\, \tilde\beta_t$ → 用 $x^{(t)},\epsilon$ 表出 $\tilde\mu_t$ → 用 $\epsilon_\theta$ 替代 $\epsilon$ → 得到 $p_\theta(x^{(t-1)}\mid x^{(t)})$ 与采样式。

$\tilde\mu_t$ （以及 $\mu_\theta$ ）只是反向条件分布的均值，不是最终的 $x^{(t-1)}$ 本身。真正采样时是从高斯里抽一个样本，即均值 + 标准差×标准正态：

x^{(t-1)} = \mu_\theta(x^{(t)}, t) + \sqrt{\tilde\beta_t}\,\zeta, \qquad \zeta \sim \mathcal{N}(0, \mathbf{I}).

这里的 $+\sqrt{\tilde\beta_t}\,\zeta$ 就是“后面加的噪声”。所以：公式 $\tilde\mu_t = \frac{1}{\sqrt{\alpha_t}}\big( x^{(t)} - \frac{\beta_t}{\sqrt{1-\bar\alpha_t}}\,\epsilon \big)$ 给出的是分布的均值；实际更新是：先算均值 $\mu_\theta$ ，再加上 $\sqrt{\tilde\beta_t}\,\zeta$ 得到 $x^{(t-1)}$ 。第 4 节「采样」和第 5 节小结表里已经写了带 $\sqrt{\tilde\beta_t}\,\zeta$ 的采样式；均值公式和采样式是配套的：前者定义均值，后者在均值基础上加噪声完成一步采样。

目录

目录

DDPM原理详解

一、前向过程

1. 定义与记号

2. 单步转移（定义）

3. 多步边际 $q(x^{(t)} \mid x^{(0)})$ 的闭式

3.1 递推： $x^{(t)}$ 用 $x^{(0)}$ 与噪声表示

3.2 均值与 $\sqrt{\bar\alpha_t}$ 的推导

3.3 方差与 $(1-\bar\alpha_t)$ 的推导

4. 重参数化形式（采样与训练用）

5. 小结

二. 反向过程

1. 反向后验的贝叶斯形式

2. 后验均值 $\tilde\mu_t$ 与方差 $\tilde\beta_t$ 的推导

2.1 方差 $\tilde\beta_t$

2.2 均值 $\tilde\mu_t$

3. 用 $\epsilon$ （噪声）表示均值并引入 $\epsilon_\theta$

4. 最终反向过程公式

5. 小结

相关内容

目录

DDPM原理详解

一、前向过程

1. 定义与记号

2. 单步转移（定义）

3. 多步边际 q(x(t)∣x(0))q(x^{(t)} \mid x^{(0)})q(x(t)∣x(0)) 的闭式

3.1 递推：x(t)x^{(t)}x(t) 用 x(0)x^{(0)}x(0) 与噪声表示

3.2 均值与 αˉt\sqrt{\bar\alpha_t}αˉt​​ 的推导

3.3 方差与 (1−αˉt)(1-\bar\alpha_t)(1−αˉt​) 的推导

4. 重参数化形式（采样与训练用）

5. 小结

二. 反向过程

1. 反向后验的贝叶斯形式

2. 后验均值 μ~t\tilde\mu_tμ~​t​ 与方差 β~t\tilde\beta_tβ~​t​ 的推导

2.1 方差 β~t\tilde\beta_tβ~​t​

2.2 均值 μ~t\tilde\mu_tμ~​t​

3. 用 ϵ\epsilonϵ（噪声）表示均值并引入 ϵθ\epsilon_\thetaϵθ​

4. 最终反向过程公式

5. 小结

相关内容

Analytic Diffusion Studio — 技术文档索引

Analytic Diffusion Studio — 项目总览

smalldiffusion 技术文档索引

smalldiffusion 项目总览

Flow Matching Guide and Code: Discrete Flow Matching

3. 多步边际 $q(x^{(t)} \mid x^{(0)})$ 的闭式

3.1 递推： $x^{(t)}$ 用 $x^{(0)}$ 与噪声表示

3.2 均值与 $\sqrt{\bar\alpha_t}$ 的推导

3.3 方差与 $(1-\bar\alpha_t)$ 的推导

2. 后验均值 $\tilde\mu_t$ 与方差 $\tilde\beta_t$ 的推导

2.1 方差 $\tilde\beta_t$

2.2 均值 $\tilde\mu_t$

3. 用 $\epsilon$ （噪声）表示均值并引入 $\epsilon_\theta$