MeanFlow

Steven 收录于类别 Diffusion/Flow 和系列 Diffusion/Flow系列

2026-02-28 2026-03-03 约 4546 字预计阅读 20 分钟

系列 -

MeanFlow 算法完整技术文档（原理+数学推导+训练推理+工程代码）本文档为正式技术规格文档，完整复现 MeanFlow 核心理论、数学推导、训练流程、采样逻辑与可运行 Demo。

1 文档基本信息

算法名称：MeanFlow
提出团队：Facebook AI Research（何恺明团队）
发表时间：2025 年
核心定位：一步生成（1‑NFE）生成式建模框架
基础依托：流匹配（Flow Matching）+ 常微分方程（ODE）
核心创新：从学习瞬时速度场 $v$ 改为学习区间平均速度场 $u$ ，实现单步高质量生成

2 背景与动机

2.1 传统生成模型的痛点

扩散模型 / 流匹配：学习瞬时速度场，必须多步欧拉积分才能生成高质量图像，步数越少质量越差。
Consistency Models：需要蒸馏、课程学习、多阶段训练，流程复杂且理论不闭合。
一步模型：以往 1 步模型生成质量远低于多步模型。

2.2 MeanFlow 解决思路

直接建模时间区间 $[r, t]$ 上的平均速度，让模型一次性学习“从噪声到数据”的完整位移，而非逐点瞬时变化。

3 核心数学定义（完整推导）

3.1 基本符号定义

$z_t \in \mathbb{R}^d$ ：时间 $t$ 处的隐变量
$x_0 \sim p_0$ ：初始高斯噪声
$x_1 \sim p_{\text{data}}$ ：真实数据分布
$v(z_t, t)$ ：瞬时速度场（传统 Flow Matching 学习目标）
$u(z_t, r, t)$ ：平均速度场（MeanFlow 学习目标）
ODE 动力学： $\frac{dz_t}{dt} = v(z_t, t)$

3.2 平均速度场定义

平均速度是瞬时速度在区间 $[r, t]$ 上的积分平均：

u(z_t, r, t) = \frac{1}{t - r} \int_{r}^{t} v(z_\tau, \tau) d\tau

物理意义：

$v$ = 某一时刻的瞬间速度
$u$ = 从 $r$ 走到 $t$ 的整体平均移动速度

3.3 MeanFlow 核心恒等式（关键理论）

对平均速度定义式关于 $t$ 求导，利用链式法则与微积分基本定理，可推导出平均速度与瞬时速度的严格恒等式。

v(z_t, t) - u(z_t, r, t) = (t - r) \left( \frac{\partial u}{\partial t} + \nabla_{z_t} u \cdot v(z_t, t) \right)

推导如下。

步骤 1：将定义式两边同乘 $(t - r)$ ，得

(t - r)\, u(z_t, r, t) = \int_{r}^{t} v(z_\tau, \tau)\, d\tau.

步骤 2：对等式两边关于 $t$ 求导。

右边：由微积分基本定理，积分对上限 $t$ 的导数为被积函数在 $\tau = t$ 处的值，即
$\frac{d}{dt} \int_{r}^{t} v(z_\tau, \tau)\, d\tau = v(z_t, t).$
左边： $(t - r)\, u(z_t, r, t)$ 是 $t$ 的函数，且 $z_t$ 也随 $t$ 变化（满足 $\frac{d z_t}{d t} = v(z_t, t)$ ）。由乘积法则，
$\frac{d}{dt}\bigl[ (t - r)\, u(z_t, r, t) \bigr] = u(z_t, r, t) + (t - r)\, \frac{d}{dt} u(z_t, r, t).$
对 $u(z_t, r, t)$ 关于 $t$ 求全导数时， $u$ 既直接依赖 $t$ ，又通过 $z_t$ 依赖 $t$ ，故
$\frac{d}{dt} u(z_t, r, t) = \frac{\partial u}{\partial t} + \nabla_{z_t} u \cdot \frac{d z_t}{d t} = \frac{\partial u}{\partial t} + \nabla_{z_t} u \cdot v(z_t, t).$
因此左边等于
$u + (t - r) \left( \frac{\partial u}{\partial t} + \nabla_{z_t} u \cdot v(z_t, t) \right).$

步骤 3：左右两边相等，故

u(z_t, r, t) + (t - r) \left( \frac{\partial u}{\partial t} + \nabla_{z_t} u \cdot v(z_t, t) \right) = v(z_t, t).

移项即得核心恒等式：

v(z_t, t) - u(z_t, r, t) = (t - r) \left( \frac{\partial u}{\partial t} + \nabla_{z_t} u \cdot v(z_t, t) \right)

该式无近似、无假设、完全严格，是 MeanFlow 训练的理论基础。

3.4 训练目标推导

从恒等式中解出模型需要拟合的目标平均速度：

u_{\text{tgt}} = v_t - (t - r) \left( \frac{\partial u_\theta}{\partial t} + \nabla_{z_t}u_\theta \cdot v_t \right)

训练损失为模型输出与目标的 L2 距离：

\mathcal{L}(\theta) = \mathbb{E}_{r<t, z_t, v_t} \left\| u_\theta(z_t, r, t) - \text{sg}(u_{\text{tgt}}) \right\|_2^2

$\text{sg}(\cdot)$ ：停止梯度，保证目标固定
$v_t = x_1 - x_0$ ：线性路径下的解析瞬时速度

$\text{sg}(\cdot)$ 详细说明与实现

定义：前向时 $\text{sg}(x) = x$ （数值不变）；反向时 $\dfrac{\partial \,\text{sg}(x)}{\partial x} = 0$ ，即该节点不向输入传梯度，在计算图中被当作常数。
为何必须用：目标 $u_{\text{tgt}} = v_t - (t - r)\big(\partial u_\theta/\partial t + \nabla_{z_t}u_\theta \cdot v_t\big)$ 依赖 $u_\theta$ 及其导数，即依赖 $\theta$ 。若不做 sg， $\nabla_\theta \mathcal{L}$ 会包含“通过 $u_{\text{tgt}}$ 再对 $\theta$ 求导”的项，目标会随参数更新而变（移动目标）；用 sg 后只对损失里的 $u_\theta(z_t,r,t)$ 关于 $\theta$ 求导，目标在本次更新中固定，等价于监督学习：拟合给定向量 $u_{\text{tgt}}$ 。
实现要点：先按公式算出 $u_{\text{tgt}}$ （需要自动微分得到 $\partial u_\theta/\partial t$ 和 $\nabla_{z_t} u_\theta$ ），再对 $u_{\text{tgt}}$ 做 stop-gradient，最后算 MSE。下面给出 PyTorch 写法。

PyTorch：用 .detach() 把目标从计算图剥离，反向时梯度不会穿过目标。 $(\nabla_{z_t} u_\theta)\cdot v_t$ 为 Jacobian–向量积，用 torch.autograd.functional.jvp 一次算出。

from torch.autograd.functional import jvp

# z_t, t 需 requires_grad=True 以便算 u_tgt 中的导数
u = model(z_t, r, t)   # u_theta(z_t, r, t)

# 时间导数：\partial u / \partial t（保持 z_t 不变）
du_dt = torch.autograd.grad(u, t, grad_outputs=torch.ones_like(u), create_graph=False, allow_unused=True)[0]
if du_dt is None:
    du_dt = torch.zeros_like(u)
# 空间 Jacobian–向量积：(\nabla_{z_t} u) · v_t
_, jvp_z = jvp(lambda z: model(z, r, t), z_t, v_t)

u_tgt = v_t - (t - r) * (du_dt + jvp_z)
u_tgt = u_tgt.detach()   # stop-gradient：loss 反向不传到 u_tgt
loss = F.mse_loss(u, u_tgt)
loss.backward()

3.5 一步采样公式

推理阶段仅需一次前向传播，直接从噪声映射到数据：

z_1 = z_0 + u_\theta(z_0, 0, 1)

$0 \to 1$ 代表完整生成过程
无迭代、无积分、1-NFE 完成

4 算法完整流程

4.1 训练流程（逐步骤）

1. 采样噪声 $x_0 \sim \mathcal{N}(0, I)$
2. 采样数据 $x_1 \sim p_{\text{data}}$
3. 随机采样时间对 $0 \le r < t \le 1$
4. 构造线性插值路径： $z_t = (1-t)x_0 + t x_1$
5. 计算解析瞬时速度： $v_t = x_1 - x_0$
6. 前向计算模型输出 $u_\theta(z_t, r, t)$
7. 利用自动微分计算：

$\partial u_\theta / \partial t$
$\nabla_{z_t} u_\theta$

8. 构造目标速度 $u_{\text{tgt}}$
9. 最小化 MSE 损失更新参数

4.2 推理（采样）流程

1. 采样高斯噪声 $z_0 \sim \mathcal{N}(0, I)$
2. 前向计算平均速度 $u = u_\theta(z_0, 0, 1)$
3. 一步生成： $z_1 = z_0 + u$
4. 输出 $z_1$ 为最终样本

5 关键技术特性

1. 理论完全闭合从定义直接推导，无启发式、无蒸馏、无课程学习。 2. 一步生成（1‑NFE）速度与 GAN 相当，质量逼近多步扩散模型。 3. 训练稳定损失函数平滑，最优解唯一存在。 4. 天然支持条件生成可直接嵌入 CFG（无分类器引导），无需修改结构。 5. 兼容所有 DiT / U-Net 架构只需将输出从瞬时速度 $v$ 改为平均速度 $u$ 。

6 MeanFlow 完整 PyTorch 实现（工程级 Demo）

import torch
import torch.nn as nn
import torch.nn.functional as F
from torch.autograd import grad


# ==============================================================================
# 1. MeanFlow 核心模型：支持 z_t + r + t 输入
# ==============================================================================
class MeanFlowModel(nn.Module):
    def __init__(self, input_dim=2, hidden_dim=256):
        super().__init__()
        # 输入：z + 时间r + 时间t → 输出：平均速度场 u
        self.net = nn.Sequential(
            nn.Linear(input_dim + 2, hidden_dim),
            nn.SiLU(),
            nn.Linear(hidden_dim, hidden_dim),
            nn.SiLU(),
            nn.Linear(hidden_dim, hidden_dim),
            nn.SiLU(),
            nn.Linear(hidden_dim, input_dim)
        )

    def forward(self, z, r, t):
        """
        z:  [B, D]
        r:  [B]
        t:  [B]
        return: u [B, D]
        """
        t = t.unsqueeze(1)
        r = r.unsqueeze(1)
        x = torch.cat([z, r, t], dim=1)
        return self.net(x)


# ==============================================================================
# 2. 核心函数：计算 u_tgt（目标平均速度）
# ==============================================================================
def compute_meanflow_target(model, z_t, r, t, v_t):
    """
    实现论文核心公式：
    u_tgt = v_t - (t - r) * (du/dt + ∇z u · v_t)
    """
    B, D = z_t.shape

    # 开启微分
    z_t = z_t.detach().requires_grad_(True)
    t = t.detach().requires_grad_(True)

    # 前向
    u = model(z_t, r, t)

    # 1. 计算 du/dt
    du_dt = grad(u.sum(), t, create_graph=True)[0]  # [B]
    du_dt = du_dt.view(B, 1).expand(B, D)

    # 2. 计算 ∇_z u · v_t
    du_dz = grad(u.sum(), z_t, create_graph=True)[0]  # [B, D]
    du_dz_v = du_dz * v_t

    # 3. 目标平均速度
    delta_t = (t - r).view(B, 1)
    u_tgt = v_t - delta_t * (du_dt + du_dz_v)

    # 停止梯度，保证目标不变
    return u_tgt.detach()


# ==============================================================================
# 3. 单步训练逻辑
# ==============================================================================
def train_one_step(model, optimizer, x0, x1):
    B = x0.shape[0]
    device = x0.device

    # 采样 r < t
    t = torch.rand(B, device=device)
    r = torch.rand(B, device=device) * t

    # 线性路径
    z_t = (1 - t[:, None]) * x0 + t[:, None] * x1
    v_t = x1 - x0  # 瞬时速度

    # 前向
    u_pred = model(z_t, r, t)

    # 计算目标
    u_tgt = compute_meanflow_target(model, z_t, r, t, v_t)

    # 损失
    loss = F.mse_loss(u_pred, u_tgt)

    # 优化
    optimizer.zero_grad()
    loss.backward()
    optimizer.step()

    return loss


# ==============================================================================
# 4. 一步采样（核心！1-NFE）
# ==============================================================================
@torch.no_grad()
def meanflow_sample(model, n_samples, dim, device):
    z0 = torch.randn(n_samples, dim, device=device)
    r = torch.zeros(n_samples, device=device)
    t = torch.ones(n_samples, device=device)
    u = model(z0, r, t)
    z1 = z0 + u
    return z1


# ==============================================================================
# 5. Toy 实验：双高斯分布生成（可直接运行）
# ==============================================================================
if __name__ == "__main__":
    device = "cuda" if torch.cuda.is_available() else "cpu"

    # 模型
    model = MeanFlowModel(input_dim=2, hidden_dim=256).to(device)
    opt = torch.optim.Adam(model.parameters(), lr=1e-3)

    # 真实数据分布：两个高斯聚类
    def data_sampler(batch):
        x = torch.randn(batch, 2, device=device)
        c = torch.randint(0, 2, (batch,), device=device)
        x[c == 0] += torch.tensor([3.0, 3.0], device=device)
        x[c == 1] -= torch.tensor([3.0, 3.0], device=device)
        return x

    # 训练
    print("Start training...")
    for step in range(10000):
        x0 = torch.randn(256, 2, device=device)
        x1 = data_sampler(256)
        loss = train_one_step(model, opt, x0, x1)
        if step % 500 == 0:
            print(f"Step {step:05d} | Loss {loss:.4f}")

    # 一步采样（仅1次前向）
    samples = meanflow_sample(model, n_samples=1000, dim=2, device=device)
    print("\nSampled points (first 5):")
    print(samples[:5])

7 与其他模型的对比总结

模型	学习目标	采样步数	训练复杂度	理论
Flow Matching	瞬时速度 $v$	≥20 步	低	干净
Consistency Model	自一致性	1 步	极高（蒸馏）	启发式
MeanFlow	平均速度 $u$	1 步	低	完全严格

8 适用场景

图像/视频/音频生成
蛋白质结构生成
高分辨率实时 AIGC
端侧部署（低算力、低延迟）
需要单步快速生成的工业场景

目录

目录

MeanFlow

1 文档基本信息

2 背景与动机

2.1 传统生成模型的痛点

2.2 MeanFlow 解决思路

3 核心数学定义（完整推导）

3.1 基本符号定义

3.2 平均速度场定义

3.3 MeanFlow 核心恒等式（关键理论）

3.4 训练目标推导

3.5 一步采样公式

4 算法完整流程

4.1 训练流程（逐步骤）

4.2 推理（采样）流程

5 关键技术特性

6 MeanFlow 完整 PyTorch 实现（工程级 Demo）

7 与其他模型的对比总结

8 适用场景

相关内容

目录

MeanFlow

1 文档基本信息

2 背景与动机

2.1 传统生成模型的痛点

2.2 MeanFlow 解决思路

3 核心数学定义（完整推导）

3.1 基本符号定义

3.2 平均速度场定义

3.3 MeanFlow 核心恒等式（关键理论）

3.4 训练目标推导

3.5 一步采样公式

4 算法完整流程

4.1 训练流程（逐步骤）

4.2 推理（采样）流程

5 关键技术特性

6 MeanFlow 完整 PyTorch 实现（工程级 Demo）

7 与其他模型的对比总结

8 适用场景

相关内容

Analytic Diffusion Studio — 技术文档索引

Analytic Diffusion Studio — 项目总览

smalldiffusion 技术文档索引

smalldiffusion 项目总览

Flow Matching Guide and Code: Discrete Flow Matching