目录

ELBO

Steven 收录于类别 Diffusion/Flow 和系列 Diffusion/Flow系列

2026-02-28 2026-03-27 约 5407 字预计阅读 24 分钟

系列 -

目录

ELBO 与变分方法详解

一、动机：为什么需要 ELBO？

在隐变量生成模型中，观测 $x$ 由隐变量 $z$ 通过解码器 $p_\phi(x|z)$ 生成，先验为 $p(z)$ 。**边际似然（证据）**为：

\log p_\phi(x) = \log \int p_\phi(x|z)\, p(z)\, dz

理想：用最大似然估计（MLE）最大化 $\log p_\phi(x)$ 来学习解码器参数 $\phi$ 。
障碍：积分对 $z$ 在高维、非线性解码器下难以计算（intractable），直接 MLE 不可行。
变分思路：不直接算 $\log p_\phi(x)$ ，而是构造一个可计算的下界，通过最大化该下界间接增大 $\log p_\phi(x)$ 。这个下界就是 ELBO（Evidence Lower BOund，证据下界）。

二、变分方法核心：近似后验 $q(z|x)$

真实后验为：

p_\phi(z|x) = \frac{p_\phi(x|z)\, p(z)}{p_\phi(x)}

分母 $p_\phi(x)$ 含难算积分，故 $p_\phi(z|x)$ 也无法直接得到。

变分方法引入一族由参数 $\theta$ 控制的分布 $q_\theta(z|x)$ （如高斯，由编码器输出 $\mu(x),\sigma(x)$ ），用 $q_\theta(z|x)$ 近似 $p_\phi(z|x)$ 。“变分”即在该族内调整 $\theta$ ，使 $q$ 尽量接近真实后验。

三、ELBO 的推导

下面从 $\log p_\phi(x)$ 出发，对任意与 $x$ 有关的分布 $q(z|x)$ （不要求等于真实后验 $p_\phi(z|x)$ ），逐步推出 ELBO 与 KL 的分解。推导中只用到概率的乘法公式与期望的线性性，不涉及对 $z$ 的难算积分。

3.1 第一步：把常数放进对 $q$ 的期望里

$\log p_\phi(x)$ 与 $z$ 无关，故对任意分布 $q(z|x)$ 有：

\log p_\phi(x) = \int q(z|x)\, \log p_\phi(x)\, dz = \mathbb{E}_{z \sim q(z|x)} \left[ \log p_\phi(x) \right].

这样做的目的：后面会把被积函数换成含 $z$ 的式子，从而出现只依赖 $q$ 的期望，而不再出现 $p_\phi(x)$ 的积分。

3.2 第二步：用联合分布与后验表示

由条件概率 $p_\phi(z|x) = p_\phi(x,z)\,/\,p_\phi(x)$ 得 $p_\phi(x) = p_\phi(x,z)\,/\,p_\phi(z|x)$ ，代入上式：

\log p_\phi(x) = \mathbb{E}_{z \sim q(z|x)} \left[ \log \frac{p_\phi(x,z)}{p_\phi(z|x)} \right].

这里 $\log$ 里出现了联合 $p_\phi(x,z)$ 与后验 $p_\phi(z|x)$ ；后者仍然难算，下一步通过引入 $q$ 把 $p_\phi(z|x)$ 从 $\log$ 里“换掉”。

3.3 第三步：分子分母同乘 $q(z|x)$ （乘 1 技巧）

在 $\log$ 内分子分母同乘 $q(z|x)$ ，不改变取值：

\frac{p_\phi(x,z)}{p_\phi(z|x)} = \frac{p_\phi(x,z)}{q(z|x)} \cdot \frac{q(z|x)}{p_\phi(z|x)}.

于是：

\log p_\phi(x) = \mathbb{E}_{z \sim q(z|x)} \left[ \log \left( \frac{p_\phi(x,z)}{q(z|x)} \cdot \frac{q(z|x)}{p_\phi(z|x)} \right) \right].

3.4 第四步：拆成两项（log 乘积 = 和）

$\log(ab) = \log a + \log b$ ，且期望线性，故：

\log p_\phi(x) = \mathbb{E}_{z \sim q(z|x)} \left[ \log \frac{p_\phi(x,z)}{q(z|x)} \right] + \mathbb{E}_{z \sim q(z|x)} \left[ \log \frac{q(z|x)}{p_\phi(z|x)} \right].

3.5 第五步：认出 KL 散度

第二项正是 $q(z|x)$ 对 $p_\phi(z|x)$ 的 KL 散度：

D_{\mathrm{KL}}\bigl( q(z|x) \,\|\, p_\phi(z|x) \bigr) = \mathbb{E}_{z \sim q(z|x)} \left[ \log \frac{q(z|x)}{p_\phi(z|x)} \right].

由 Jensen 不等式或 Gibbs 不等式可知 KL 散度非负，且当且仅当 $q = p_\phi(z|x)$ 时为零，故：

D_{\mathrm{KL}}\bigl( q(z|x) \,\|\, p_\phi(z|x) \bigr) \geq 0.

3.6 结论：证据 = ELBO + KL

记第一项为 ELBO（证据下界），即得：

\boxed{ \log p_\phi(x) = \underbrace{\mathbb{E}_{z \sim q(z|x)} \left[ \log \frac{p_\phi(x,z)}{q(z|x)} \right]}_{\mathrm{ELBO}} + D_{\mathrm{KL}}\bigl( q(z|x) \,\|\, p_\phi(z|x) \bigr) }

因此：

\log p_\phi(x) \geq \mathrm{ELBO},

等号成立当且仅当 $q(z|x) = p_\phi(z|x)$ （几乎处处）。即 ELBO 是 $\log p_\phi(x)$ 的下界，且等号越紧说明 $q$ 越接近真实后验。ELBO 中只出现 $p_\phi(x,z)$ 与 $q(z|x)$ ，不包含难算的 $p_\phi(x)$ 或 $p_\phi(z|x)$ 。

四、ELBO 的两种等价形式

ELBO 的原始形式为 $\mathbb{E}_{z \sim q(z|x)} \left[ \log \frac{p_\phi(x,z)}{q(z|x)} \right]$ 。下面通过分解 $p_\phi(x,z)$ 得到两种常用写法。

4.1 从联合分布分解开始

由联合概率分解 $p_\phi(x,z) = p_\phi(x|z)\, p(z)$ （先验 × 似然），有：

\log \frac{p_\phi(x,z)}{q(z|x)} = \log p_\phi(x|z) + \log p(z) - \log q(z|x).

对 $q(z|x)$ 取期望（期望的线性性），得：

\mathrm{ELBO} = \mathbb{E}_{z \sim q(z|x)} \left[ \log p_\phi(x|z) \right] + \mathbb{E}_{z \sim q(z|x)} \left[ \log p(z) - \log q(z|x) \right].

4.2 形式一：重构项 + KL 正则项（VAE 常用）

第二项 $\mathbb{E}_{z \sim q(z|x)} \left[ \log p(z) - \log q(z|x) \right]$ 正是 $-D_{\mathrm{KL}}(q(z|x) \| p(z))$ （ $q$ 对先验 $p(z)$ 的 KL 的相反数）。因此：

\boxed{ \mathrm{ELBO} = \mathbb{E}_{z \sim q(z|x)} \left[ \log p_\phi(x|z) \right] - D_{\mathrm{KL}}\bigl( q(z|x) \,\|\, p(z) \bigr) }

第一项 $\mathbb{E}_{z \sim q(z|x)} \left[ \log p_\phi(x|z) \right]$ ：重构对数似然。从 $q(z|x)$ 采样 $z$ ，看解码器 $p_\phi(x|z)$ 能否把 $z$ 还原成 $x$ ；越大重构越好。
第二项 $-D_{\mathrm{KL}}(q(z|x) \| p(z))$ ：正则项。约束 $q(z|x)$ 不要偏离先验 $p(z)$ 太远，避免后验塌缩或过于任意。

4.3 形式二：证据与后验近似误差

在第三节已得到 $\log p_\phi(x) = \mathrm{ELBO} + D_{\mathrm{KL}}(q \| p_\phi(z|x))$ ，移项即：

\mathrm{ELBO} = \log p_\phi(x) - D_{\mathrm{KL}}\bigl( q(z|x) \,\|\, p_\phi(z|x) \bigr).

因此：

最大化 ELBO 等价于同时 增大 $\log p_\phi(x)$ 与 减小 $q$ 与真实后验的 KL。
$q$ 越接近 $p_\phi(z|x)$ ，KL 越小，ELBO 越紧（越接近 $\log p_\phi(x)$ ）。

五、为什么 ELBO 可计算、可优化？

对象	是否含难算积分
$\log p_\phi(x)$	含 $\int p_\phi(x \mid z)p(z)\,dz$ ，难算
ELBO	仅含 $\mathbb{E}_{z \sim q(z \mid x)}[\cdots]$ ，无难解积分

ELBO 只涉及对 $q(z|x)$ 的期望：

采样：从 $q_\theta(z|x)$ 采样 $z$ （VAE 中用重参数化 $z = \mu + \sigma \odot \varepsilon$ ， $\varepsilon \sim \mathcal{N}(0,I)$ ，便于对 $\theta$ 求导）。
估计：用蒙特卡洛 $\frac{1}{N}\sum_i \log p_\phi(x|z^{(i)})$ 估计第一项；当 $q$ 、 $p$ 为高斯时，KL 项可解析写出，无需采样。
梯度：对 $\phi,\theta$ 可微，用反向传播即可训练解码器与编码器。

因此 变分方法 通过引入 $q(z|x)$ ，把“难算的边际积分”转化为“对 $q$ 的期望”，得到可优化的 ELBO。

六、与直接 MLE + 蒙特卡洛的对比

直接 MLE：最大化 $\log p_\phi(x)$ ，梯度为 $\nabla_\phi \log p_\phi(x)$ ，仍含对 $z$ 的积分；若用先验 $p(z)$ 采样做蒙特卡洛，绝大多数 $z$ 对当前 $x$ 几乎无贡献，梯度估计方差极大，优化不稳定。
变分 + ELBO：用 $q(z|x)$ 在“对当前 $x$ 重要的 $z$ ”附近采样，有效样本多、方差小，梯度估计可行，故 VAE 采用最大化 ELBO 而非直接 MLE。

七、小结

变分方法：用可参数量 $q_\theta(z|x)$ 近似难算的后验 $p_\phi(z|x)$ ，并构造 $\log p_\phi(x)$ 的可算下界。
ELBO：
$\mathcal{L}(\phi,\theta) = \mathbb{E}_{z \sim q_\theta(z|x)} \left[ \log p_\phi(x|z) \right] - D_{\mathrm{KL}}\bigl( q_\theta(z|x) \,\|\, p(z) \bigr)$
训练：最大化 ELBO，即同时近似 MLE（提高 $\log p_\phi(x)$ ）和学好近似后验 $q(z|x)$ 。VAE 即在此框架下，用神经网络表示 $p_\phi(x|z)$ 与 $q_\theta(z|x)$ 并优化上述目标。

相关内容