# 生成扩散模型综述

摘要：由于深度潜在表示，抽象 - 深度学习在生成任务中显示出卓越的潜力。生成模型是一类可以随机生成关于某些隐含参数的观察值的模型。近年来，扩散模型凭借其能量生成能力成为一种新兴的生成模型。如今，已经取得了巨大的成就。除了计算机视觉、语音生成、生物信息学和自然语言处理外，该领域还有待探索更多的应用。然而，扩散模型有其真正的缺点，即生成过程缓慢、数据类型单一、似然度低以及无法进行降维。它们正在导致许多改进工程。本文对扩散模型的研究现状进行了综述。首先，我们阐述了两个地标性作品 DDPM 和 DSM 以及一个统一地标性作品 Score SDE 的主要问题。然后，针对扩散模型领域存在的问题，提出了分类改进技术；为了提高模型的速度，本文提出了各种各样的先进技术来加速扩散模型 —— 训练计划、免训练采样、混合建模以及得分和扩散统一。针对数据结构多样化问题，提出了在连续空间、离散空间和约束空间应用扩散模型的改进技术。对于似然优化，本文提出了改进 ELBO 和最小化变分差距的理论方法。对于降维问题，我们提出了几种解决高维问题的技术。对于现有模型，还根据具体的 NFE 提供了 FID score、IS 和 NLL 的基准。此外，还介绍了扩散模型的应用，包括计算机视觉、序列建模、音频和科学人工智能。最后，对该领域的研究现状进行了总结，指出了存在的问题和进一步的研究方向。现有分类良好的方法的总结在我们的 Github: https://github.com/chq1155/A-Survey-on-Generative-Diffusion-Model。

# 1. 导语

我们如何赋予机器人类般的想象力？深度生成模型，如 VAE [1]、[2]、[3]、[4]、EBM [5]、[6]、[7]、[8]、GAN [9]、[10]、[11]、[12]、[13]、归一化流 [14]、[15]、[16]、[17]、[18]、[19] 和扩散模型 [20]、[21]、[22]、[23]、[24]，在创造人类无法正确区分的新模式方面显示了巨大的潜力。本文关注基于扩散的生成模型，它不需要像 VAE 那样对齐后验分布，不需要像 EBM 那样处理棘手的划分函数，不需要像 GAN 那样训练额外的判别器，也不需要像归一化流那样施加网络约束。由于上述优点，基于扩散的方法受到了计算机视觉、自然语言处理和图分析等领域的广泛关注。然而，目前尚缺乏对扩散模型研究进展的系统分类和分析。

扩散模型的进展为描述模型提供了易于处理的概率参数化，提供了具有充分理论支持的稳定训练过程，以及高度简单的统一损失函数设计。扩散模型旨在将先验数据分布转换为随机噪声，然后逐步修正这些转换，以重建与先验 [25] 具有相同分布的全新样本。近年来，扩散模型在计算机视觉 (CV) 领域展示了其精妙的潜力 [?]],[20],[26],[27],[28],[29],[30],[31],[32],[33],[34],[35],[36],[37], 序列建模 [38],[39],[40],[41], 音频处理 [42],[43],[44],[45],[46],[47],[48],[49],[50],[51], 和人工智能科学 [52],[53],[54],[55],[56]。受扩散模型在这些流行领域迄今为止的成功启发，将扩散模型应用于其他领域的生成相关任务，将是利用强大的生成能力的有利途径。

另一方面，与生成对抗网络 (Generative Adversarial Networks, GANs) 和变分自编码器 (Variational Auto-Encoders, vae) 相比，扩散模型存在采样步数多、采样时间长等固有缺陷。由于扩散模型利用马尔可夫过程通过微小的扰动来转换数据分布，因此在训练和推理阶段都需要大量的扩散步骤。因此，需要更多的时间从随机噪声中采样，直到它最终改变为类似于先验的高质量数据。此外，其他问题如似然优化和维数约简的无法实现也算在内。因此，许多工作希望在提高采样质量的同时加快扩散过程 [60]，[61]，[62]。例如，DPM-solver 利用 ODE 的稳定性在 10 步内生成最先进的样本 [63]。D3PM [64] 不仅提出了混合训练损失，还提出了文本和分类数据。将扩散模型的改进工作归纳为四类。(1) 加速改进，(2) 数据结构多样化，(3) 似然优化，(4) 降维。具体内容见第 3 节。

图 1 生成模型流水线。(a) 生成式对抗网络 (GAN)[57] 将对抗性训练策略应用于生成器，以生成逼真的样本，如输入分布。(b) 基于能量的模型 (EBM)[58] 设计了一个合适的能量函数，用于条件和样本之间的成对能量匹配，类似于 GAN 中的生成鉴别器。(c) 变分自编码器 (VAE)[59] 应用编码器将先验信息投影到缩减了维数的潜空间中，解码器可以从中采样。(d) 归一化流 (NF)[18] 采用一种设计良好的可逆流函数，将输入转化为隐变量，然后用流函数的逆返回样本。(e) 扩散模型在反转采样步骤中的每一步之前，逐步向原始数据中注入噪声，直到其变为已知的噪声分布。

因此，基于广泛的应用以及多角度的算法改进思路，对扩散模型的研究现状进行了详细综述。通过对其他领域的增强算法和应用进行分类，本文的核心贡献如下:

・总结扩散模型领域基本算法的本质数学公式和推导，包括训练策略的利用、采样算法。

・对改进扩散算法进行了全面的分类，并将其分为加速改进、结构多样化、似然优化和降维 4 个方面。

・提供关于扩散模型在计算机视觉、自然语言处理、生物信息学和语音处理方面的应用的广泛陈述，其中包括领域专用问题表述、相关数据集、评估指标和下游任务，以及一组基准。

・阐明当前模型的局限性和扩散模型领域可能的进一步证明方向

# 2. 问题陈述

# 2.1 概念和定义

# 2.1.1 状态

状态是描述整个扩散模型过程的一组数据分布。开始时，噪声逐渐注入到启动分布中，称为启动状态 $𝑥_0$ 。经过足够多的噪声注入步骤，分布最终变成一个已知的噪声分布 (大部分是高斯分布)，这被称为先验状态 $x_T(\text{离散的})/𝑥_1(\text{连续的})$ 。然后，起始状态和先验状态之间的其他分布称为中间状态 $𝑥_𝑡$ 。

# 2.1.2 过程与转换核

如上所述，将起始状态转换为可处理噪声的过程是向前 / 扩散过程𝐹。从反向到正向的过程称为反向 / 去噪过程𝑅。反向过程将噪声梯度逐步采样到样本中，作为初始状态。在这两个过程中，任何两种状态之间的交换都是通过转换核实现的。最常用的核是马尔可夫核，因为它保证了正向过程和反向过程的随机性和可处理性。

前向过程 & 内核：为了展示一个统一的框架，前向过程由许多前向步骤组成，这些步骤是前向过渡内核:

$𝐹(𝑥,\sigma)=𝐹_𝑇(𝑥_{𝑇−1},\sigma)···◦𝐹_𝑡(𝑥_{𝑡−1},\sigma)···◦𝐹_1(𝑥_0,\sigma)$ (1)

$𝑥_𝑡 = 𝐹_𝑡(𝑥_{𝑡−1}, \sigma_𝑡)$ (2)

与离散情况不同，对于任意时刻 $0≤𝑡＜𝑠≤1$ 时，转发过程定义为:

$𝐹(𝑥,\sigma)= 𝐹_{𝑠1} (𝑥_𝑠, \sigma_{𝑠1}) ◦ 𝐹_{𝑡𝑠}(𝑥𝑡 ,\sigma_{𝑡𝑠}) ◦ 𝐹_{0𝑡}(𝑥_0, \sigma_{0𝑡})$ (3)

$𝑥_𝑠 = 𝐹_{𝑡𝑠} (𝑥_𝑠, \sigma_{𝑡𝑠})$ (4)

其中𝐹𝑡是时间𝑡的前向转换内核，变量中间状态 $𝑥_{𝑡−1}$ & $𝑥_{𝑡𝑠}$ 和噪声尺度 $\sigma_𝑡$ & $\sigma_{𝑡𝑠}$ 。该表达式与归一化流的区别在于可变的噪声尺度控制了整个过程的随机性。当噪声接近于 0 时，该过程变为确定性的归一化流。

逆向过程和内核：类似地，逆向过程定义为:

$𝑅(𝑥,\sigma) = 𝑅1 (𝑥_1, \sigma_1) · · · ◦ 𝑅𝑡(𝑥_𝑡 , \sigma_𝑡) · · · ◦ 𝑅𝑇 (𝑥_𝑇 , \sigma_𝑇 )$ (5)

$𝑥_{𝑡−1} = 𝑅_𝑡(𝑥_𝑡 ,\sigma_𝑡) (𝐷𝑖𝑠𝑐𝑟𝑒𝑡𝑒)$ (6)

$𝑅(𝑥, \sigma) = 𝑅_{𝑡0} (𝑥_𝑡 , \sigma_{𝑡0}) · · · ◦ 𝑅𝑠𝑡(𝑥_𝑠, \sigma_{𝑠𝑡}) · · · ◦ 𝑅_{1𝑠} (𝑥_𝑇 , \sigma_{1𝑠})$ (7)

$𝑥_𝑡 = 𝑅_{𝑠𝑡}(𝑥_𝑠, \sigma_{𝑠𝑡}) (𝐶𝑜𝑛𝑡𝑖𝑛𝑢𝑜𝑢𝑠)$ (8)

其中 $𝑅𝑡$ 是时间 $𝑡$ 的反向转换内核，其中变量中间状态 $𝑥𝑡$ 和 $𝑥𝑠𝑡$ 以及噪声尺度 \sigma𝑡和 $\sigma𝑠𝑡$ 。

通常，在实践中反向过程是通过采样过程实现的，即逐步收集反向梯度并重构样本。

流水线：表示采样数据为 $\tilde{𝑥_0}$ 广义过程可以表示为:

$\tilde{x_0} = [𝑅_1 (𝑥_1, \sigma_1) · · · ◦ 𝑅_𝑡(𝑥_𝑡 , \sigma_𝑡) · · · ◦ 𝑅_𝑇 (𝑥_𝑇 , \sigma_𝑇 )] ◦ [𝐹_𝑇 (𝑥_{𝑇−1}, \sigma_𝑇 ) · · · ◦ 𝐹_𝑡(𝑥_{𝑡−1}, \sigma_𝑡) · · · ◦ 𝐹_1 (𝑥_0, \sigma_1)]$ (9)

$\tilde{x_0} = [𝑅_{𝑡0} (𝑥_𝑡 , \sigma_{𝑡0}) · · · ◦ 𝑅_{𝑠𝑡}(𝑥_𝑠, \sigma_{𝑠𝑡}) · · · ◦ 𝑅_{1𝑠} (𝑥_𝑇 , \sigma_{1𝑠})] ◦ [𝐹_{𝑠1} (𝑥_𝑠, \sigma_{𝑠1})𝐹_{0𝑡 }◦ 𝐹_{𝑡𝑠} (𝑥_𝑡 , \sigma_{𝑡𝑠}) ◦ 𝐹_{0𝑡}(𝑥_0, \sigma_{0𝑡})]$ (10)

# 2.1.3 离散和连续

当扰动核足够小时，整个离散过程将包含无限步。为了解决这种情况背后的机制，许多改进算法 [65]、[66] 都采用从时间 0 开始，到时间 1 结束的连续过程来获得更好的性能。与离散过程相比，连续过程能够从任何时间状态中提取任何信息。进一步，假设扰动核的变化足够小，则连续过程具有更好的理论支撑。

# 2.1.4 训练目标

扩散模型作为生成模型的一种类型，遵循与变分自回归编码器和归一化流相同的训练目标，这是保持起始分布𝑥0 和样本分布 $\tilde{x_0}$ 尽可能接近。这可以通过最大化对数似然 [25] 来实现:

$E𝐹 (𝑥0, \sigma) − log 𝑅 (x𝑇 , \tilde{\sigma})$ (11)

其中，反向过程中的 $\tilde{\sigma}$ 与正向过程中的不同。

# 2.2 问题表述

基于统一框架，两个离散地标作品 - DDPM [67] 和去噪得分匹配 (DSM)[68]，以及统一的连续地标作品 - Score SDE 与自定义转换核和训练目标如下所述。

# 2.2.1 扩散模型的建立

扩散概率模型的最初想法是重新创建一个从随机噪声开始的特定分布。因此，生成样本的分布要求与原始样本的分布尽可能接近。

DDPM 前向过程：基于统一框架，DDPM 选择一系列噪声系数 $\beta_1$ ， $\beta_2$ ，…， $\beta_𝑇$ 为遵循特定模式的马尔可夫转换核。常见的选择是常数调度、线性调度和余弦调度。根据 [67]，不同的噪声调度在实验中没有明显的影响。DDPM 的前进步骤和过程定义为:

$𝐹_𝑡(𝑥_{𝑡−1}, \beta_𝑡) := N(𝑥_𝑡, \sqrt{ 1 − \beta_{𝑡𝑥_{𝑡−1}}}, \sqrt{\beta_𝑡}I$ (12)

通过一系列从 $𝑥_0$ 到 $𝑥_𝑇$ 的扩散步骤，我们得到了向前 / 扩散过程:

$𝐹(𝑥_0,\beta):=𝑞(𝑥_1:𝑇|𝑥_0):=\prod_{t=1}^T𝑞(𝑥_𝑡|𝑥_{𝑡−1})$ (13)

ℹ️公式相关解析 (以下内容由 chatGPT 生成)

展开

公式 $F(x_0,\beta) := q(x_1:T | x_0) := \prod_{t=1}^T q(x_t | x_{t-1})$ 描述了一个由状态序列 $x_{0:T} = {x_0, x_1, \ldots, x_T}$ 和参数 $\beta$ 决定的概率分布 $F(x_0,\beta)$ ，其中：

$x_0$ 表示初始状态；
$\beta$ 是模型的参数；
$q(x_t | x_{t-1})$ 表示在当前状态为 $x_{t-1}$ 的情况下，转移到下一个状态 $x_t$ 的概率；
$q(x_1:T | x_0)$ 表示从初始状态 $x_0$ 开始，经过 $T$ 个时间步骤后，到达状态序列 $x_{1:T}$ 的概率。

公式 (13) 将 $F(x_0,\beta)$ 的定义展开成了连乘形式，即将每个时间步骤上的状态转移概率连乘起来。这个公式在概率图模型中常用于描述马尔可夫过程或者隐马尔可夫模型等具有 Markov 性质的模型。
符号 $:=$ 通常表示 “被定义为” 或者 “定义为” 的意思，用于表示左边的符号、表达式或者变量被定义为右边的值、表达式或者变量。在数学、计算机科学、物理学等领域中， $:=$ 经常被用于定义新的符号或者变量，并且保证左边的符号或者变量与右边的值或者表达式等价。

DDPM 反向过程：鉴于上面的正向过程，我们将反向步骤定义为学习到的高斯转换的反向步骤，参数为 $\theta$ [67]:13)

$R_t(x_t , \sum_\theta ) := p_\theta(x_{t−1} |x_t) := N(x_{t−1}\mu_\theta (x_t , t),\sum_\theta(x_t , t))$ (14)

通过从𝑥𝑇到𝑥0 的一系列反向步骤，我们有从 $𝑝(𝑥_𝑇)= N(𝑥_𝑇;0,I)$ :

$𝑅(x_T , \sum_ \theta ) := p_ \theta(x_0:T ) := p (x_𝑇 ) \sum^T_{t=1} p \theta (x_{t−1} | x_t)$ (15)

因此，分布 $p_\theta(𝑥_0)=∫p_\theta(𝑥_{0:𝑇})𝑑𝑥_{1:𝑇}$ 应该分配 $\tilde{𝑥}_0$ 。

扩散训练目标：通过最小化负对数似然 (NLL)，最小化问题可以表示为:

$\begin{aligned} \mathbb{E} \Big[- \log p_{\theta}(x_0)\Big] &\leq \mathbb{E}_q \Big[ - \log \frac{p_{\theta}(x_{0:T})} {q(x_{1:T} \vert x_0)} \Big] \\ &= \mathbb{E}_q \Bigg[ - \log p(x_T) - \sum_{t \geq 1} \log \frac{p_{\theta}(x_{t-1} \vert x_t)} {q(x_t \vert x_{t-1}) }\Bigg] \\ &= \mathbb{E}_q \Bigg[ \underbrace{\mathrm{D_{KL}}\Big( q(x_T \vert x_0) \parallel p(x_T) \Big) }_{L_T} \\ &\quad + \sum_{t>1} \underbrace{\mathrm{D_{KL}}\Big( q(x_{t-1} \vert x_t, x_0) \parallel p_{\theta}(x_{t-1} \vert x_t) \Big) \Big\vert}_{ L_{t-1}} \\ &\quad \underbrace{- \log p_{\theta}(x_0 \vert x_1)\Bigg]}_ {L_0} \\ &=: L \end{aligned}$

(16)

ℹ️公式相关解析 (以下内容由 chatGPT 生成)

展开

左边的式子是期望负对数似然。右边的式子是关于从 $x_0$ 到 $x_T$ 的联合分布的 KL 散度的期望，这个分布是基于 $p_{\theta}$ ，并由 $q$ 按条件 $x_{1:T}$ 分解而来。接着右边的式子展开，分成了 $T$ 项，每一项都是一个由 KL 散度的形式组成的表达式。

对于 $t=T$ ， $L_T$ 表示 $p(x_T)$ 和 $q(x_T|x_0)$ 之间的 KL 散度。对于 $t=1,...,T-1$ ， $L_t$ 表示 $p_\theta(x_{t-1}|x_t)$ 和 $q(x_{t-1}|x_t,x_0)$ 之间的 KL 散度减去 $logp_\theta(x_0|x_1)$ ，其中 $q$ 由 $p_{\theta}$ 的依赖关系分解而来。

最终，我们定义 $L$ 为等式两边的值，这是我们要优化的目标函数。

这个公式通常在变分自编码器（Variational Autoencoder，VAE）中使用，目的是最大化对数似然并最小化 KL 散度。

这里我们使用 Ho 等人 [67] 的符号。用 $𝐿_𝑇$ 表示正向损失，代表转发过程与随机噪声分布之间的散度，它是一个依赖于方差调度的常数𝛽_1，···𝛽_𝑇; 用 $𝐿_0$ 表示解码损失；用 $𝐿_{1:𝑇−1}$ 表示反向损失，为每一步前向步后验与反向步后验的散度之和。

图 2 所示。去噪扩散概率模型管道。从左到右的箭头表示扩散过程，相反方向的箭头表示扩散过程。彩色背景过渡项是 ELBO 的组成部分：蓝色部分代表解码损失 $𝐿_0$ ，绿色部分代表正向损失 $𝐿_𝑇$ ，橙色部分构成反向损失 $𝐿_𝑡$ 。不同颜色的虚线表示噪声预测模型 $\epsilon \theta$ 的训练模式。此外，在任意步骤 $1≤𝑡≤𝑇$ 中，黄色线表示原始采样过程。

# 2.2.2 评分匹配公式

评分匹配模型旨在通过近似数据 $\nabla_𝑥𝑙𝑜𝑔p(𝑥)$ 的梯度来解决原始数据分布估计问题，称为评分。分数匹配的主 na 要方法是训练一个分数网络𝑥𝜃来预测分数 [69]，[70]，该分数是通过对具有不同噪声调度的数据进行扰动得到的。分数匹配过程定义为:

分数扰动过程和核：扰动过程由一系列噪声尺度不断增加的扰动步骤组成 $\sigma1，…，\sigma𝑁$ 。高斯摄动内核被定义为 $𝑞_\sigma(\tilde{𝑥}|x ):= N\tilde{𝑥}|𝑥,\sigma^2𝐼$ 。对于每个噪声尺度𝜎𝑖，分数等效于扰动核的梯度。如果我们将这种不断增加的噪声扰动视为一个离散过程，则两个相邻状态之间的转移核为

$x_i = x_{i-1} + \sqrt{ \sigma^2_i - \sigma^2_{i-1} } \epsilon, i = 1, \ldots, N \quad (17)$

其中 $𝑁$ 是噪声尺度序列的长度， $\epsilon$ 是随机噪声。

分数匹配过程：如上所述，分数匹配过程的目标是获得一个分数估计网络𝑠_𝜃(𝑥，\sigma)，使其尽可能接近扰动核的梯度，即

$𝐿 := \frac{1}{2} \mathbb{E} [ \parallel 𝑠_\theta (x, \sigma) − \nabla log 𝑞 (x) \parallel^2 ] \quad (18)$

其中 $\sigma$ 是分数网络中的可学习参数。

DDPM 与 DSM 的联系：在某种程度上，分数匹配与去噪扩散是同一种过程。(1) 去噪机制：DSM 和 DDPM 都遵循在去噪过程中获取信息和在去噪过程中复用梯度的模式。这两个过程都将先验分布转换为已知噪声，并最终反向回到原始分布。此外，DSM 的噪声调度可以看作是恒方差扩散步骤的累积。(2) 训练对象：DSM 和 DDPM 都以最大化先验似然为目标，它们训练网络进行梯度预测。(3) 采样方法：DSM 和 DDPM 都采用了祖先采样的思想，通过逐步收集相关梯度来重构样本。

图 3 所示。去噪得分匹配 (DSM) 管道。顶部的𝜎在不同时间状态下代表不同的噪声尺度。过渡态 $p_{\sigma_𝑡}(\tilde{𝑥}_𝑡|𝑥_𝑡)$ 是扰动的输出梯度。不同颜色的虚线表明，评分网络𝑠_𝜃是通过最小化输出梯度和每个噪声尺度中的分数之间的 L2 损失之和来训练的。此外，在任意噪声状态 $1≤𝑡≤𝑇$ 下，红线表示 Langevin 动力学采样过程。

ℹ️Langevin 动力学采样 (以下内容由 chatGPT 生成)

展开

Langevin 动态采样是一种用于采样概率分布的方法，通常用于机器学习和统计物理学中。

该方法使用 Langevin 动力学方程来模拟具有某个概率分布的随机变量。Langevin 动力学方程将变量的运动建模为一个经典的布朗运动，其中潜在能量函数的负梯度用于计算力的大小和方向。这个力相当于一个随机噪声项，它使变量随机游走，并收敛到概率分布的稳态。Langevin 动态采样方法通常需要调整一些参数，如步长和噪声强度，以优化采样过程。

具体来说，假设我们要采样概率分布 $p(x)$ ，则 Langevin 动态方程可以写成如下形式：

$\frac{dx}{dt} = -\nabla U(x) + \sqrt{2\epsilon} \eta(t)$

其中， $U(x)$ 是潜在能量函数， $\epsilon$ 是噪声强度， $\eta(t)$ 是服从高斯分布的随机噪声，满足 $\langle\eta(t)\rangle=0$ 和 $\langle\eta(t)\eta(s)\rangle=\delta(t-s)$ 。在 Langevin 动力学方程中，第一项代表着变量在势能面上受到的力，而第二项代表了随机噪声对变量的影响。通过数值求解 Langevin 动力学方程，可以得到变量的一个采样路径。

Langevin 动态采样方法的优点是能够在复杂的高维空间中进行采样，并且在梯度计算相对容易的情况下表现良好。然而，它也存在一些限制，例如需要对参数进行调整，计算量较大等。

# 2.2.3 评分 SDE 制定

Score SDE [65] 提出了一种基于随机微分方程的统一连续框架来描述扩散模型和去噪分数匹配模型。不仅基于 score SDE 给出了相应的 DSM DDPM 的连续建立，而且提出了密度估计 ODE 的概率流 ODE 框架。

正向得分 SDE 过程：在 Song 等人 [65] 中，扩散过程可以被视为由随机微分方程描述的连续情况。它等于 Ito SDE [71] 的解，该解由均值变换的漂移部分和描述噪声的扩散系数组成:

$𝑑𝑥 = 𝑓 (𝑥, 𝑡)𝑑𝑡 + 𝑔(𝑡)𝑑𝑤, 𝑡 ∈ [0, 𝑇] $(19)

其中 $𝑤$ 是标准的维纳过程 / 布朗运动， $𝑓(·，𝑡)$ 是 $𝑥(𝑡)$ 的漂移系数， $𝑔(·)$ 是 $𝑥(𝑡)$ 的扩散系数的简化版本，假定它不依赖于 $𝑥$ 。其中 $𝑝_0$ 、 $𝑝𝑡(𝑥)$ 表示 $𝑥(𝑡)$ 的数据分布和概率密度。 $𝑝𝑇$ 表示没有从 $𝑝0$ 获得信息的原始先验分布。当系数分段连续时，正向 SDE 方程有唯一解 [72]。

与离散情况类似，SDE 框架中的正向转换推导如下:

$\begin{aligned} F_{\text{st}}(x(s),g_{\text{st}}) &:= q(x_t | x_s) \\ R_{\text{ts}}(x(t),g_{\text{ts}}) &:= q(x_s | x_t, x_0) \\ &= \mathcal{N}(x_s | \frac{1}{g^2_{t0}}({f_{s0}g^2_{ts}x_0} + f_{ts}(g^2_{s0}x_{t}), \frac{g^2_{s0}, g^2_{ts}}{g^2_{t0}}I) \\ \text{ 其中 } f_{ts}(x, t) &= \frac{f(x,t)} {f(x,s) } \text{ 且 } g_{ts} = \sqrt{g(t)^2 - f_{ts}^2 g(s)^2} \end{aligned}$

反向得分 SDE 过程：与正向 SDE 过程相比，反向 SDE 过程是根据反向时间随机微分方程定义的，通过时间反向运行 [65]:

$d𝑥 = \displaystyle\left[\,𝑓 (𝑥, 𝑡) - 𝑔(𝑡)\right]^2∇𝑥 + 𝑔(𝑡)d𝑤, \, 𝑡 ∈ [0, 𝑇] \quad (21)$

此外， $▽𝑥log𝑝𝑡(𝑥)$ 是匹配的分数 [73]。

Score SDE 的训练目标：与去噪后的分数匹配相比，Score SDE 的训练目标在分数损失中采用了加权方案，即

$𝐿 := \mathbb{E}_𝑡(𝑡)\{\lambda(t),\mathbb{E}_{𝑥(0)}\mathbb{E}_{𝑥(𝑡),𝑥(0)} \Big[\|\,𝑠_\theta (𝑥(𝑡), 𝑡) - \nabla_{𝑥(𝑡)} \log 𝑝(𝑥(𝑡),𝑥(0))\,\|^2_2\Big]\} \quad (22)$

其中 $𝑥(𝑡)$ 、 $𝑥(0)$ 为对应的连续时间变量 $𝑥𝑡$ 、 $𝑥0$ 。

基于 SDE 的 DDPM 和 DSM: 基于 SDE 框架，DDPM 和 DSM 的转换内核可以表示为:

$d𝑥 = − \frac{1 }{2} \beta(𝑡)𝑥 𝑑𝑡 + \sqrt {\beta(𝑡)}d𝑤 \quad (23)$

$d𝑥 = \sqrt{\frac{ d [\sigma^2(𝑡)]}{ d𝑡} }d𝑤 \quad (24)$

其中𝛽(𝑡) 和𝜎(𝑡) 是离散噪声尺度的连续时间变量𝛽𝑡和𝜎𝑖。此外，这两种 SDE 分别称为变差保持 (VP) 和变差爆炸 (VE) SDE。

概率流 ODE: 概率流 ODE (Diffusion ODE)[65] 是一种连续时间 ODE，它支持与 SDE 具有相同边缘概率密度的确定性过程。受 Maoutsa 等人 [74] 和 Chen 等人 [75] 的启发，任何类型的扩散过程都可以导出为 ODE 的特殊形式。在函数𝐺独立于𝑥的情况下，概率流 ODE 为

$𝑑𝑥 = { 𝑓 (𝑥, 𝑡) − \frac{1} {2} 𝐺(𝑡)𝐺(𝑡)^𝑇 ∇_𝑥 𝑙𝑜𝑔 𝑝_𝑡(𝑥)}𝑑𝑡 (25)$

与 SDE 相比，由于概率流 ODE 没有随机性，因此可以用更大的步长求解。由于 ODE 的优势，PNDMs [76] 和 DPM-Solver [63] 等工作通过将扩散问题建模为 ODE 获得了惊人的结果。

# 2.3 训练策略

# 2.3.1 去噪扩散训练策略

为了最小化负对数似然，我们可以用来训练的唯一项是 $𝐿_{1:𝑇−1}$ 。通过使用贝叶斯法则参数化后验 $𝑞(𝑥_{𝑡−1} |𝑥_𝑡，𝑥_0)$ ，我们有:

$𝑞 (𝑥_{𝑡−1} | 𝑥_𝑡 , 𝑥_0) = N (𝑥_{𝑡−1}; \tilde{\mu}_𝑡 (𝑥_𝑡 , 𝑥_0) , \tilde{\beta}_𝑡𝐼) \quad (26)$

其中𝛼_𝑡被定义为 $1−\beta_𝑡$ ,\bar{𝛼}_t 被定义为\prod^𝑡_{𝑘= 1}𝛼_𝑘。均值和方差表可以表示为：

$\tilde{\mu}_t (x_t , x_0) := \frac {\sqrt{ \alpha_{t−1}\beta_t }}{1 − \bar{\alpha}_t} x_0 + \frac {\sqrt {\alpha_𝑡} (1 − \bar{\alpha}_{𝑡−1})}{ 1 − \bar{\alpha}_t }x_𝑡 \quad \ \tilde{\beta}_𝑡 := \frac{1 − \bar{\alpha}_{𝑡−1}} {1 − \bar{\alpha}_t }\beta_t \quad (27)$

保持上述参数化以及重新参数化 $𝑥𝑡$ 为𝑥𝑡(𝑥0，𝜎)， $𝐿_{𝑡−1}$ 可以被视为两个平均系数之间的 L2 - 损失的期望

$𝐿_{𝑡−1} = \mathbb{E}_𝑞 \bigg[ \frac {1} {2\sigma^2_𝑡} \parallel \tilde{\mu}_𝑡 (x_𝑡 , x_0) − \mu_\theta (x_𝑡 , 𝑡) \parallel^2 \bigg] + 𝐶 \quad (28)$

简化 $𝐿_{𝑡−1}$ 通过重新参数化𝜇_𝜃 \ w.r.t \ 𝜖𝜃，我们得到简化的训练目标 $𝐿𝑠𝑖𝑚𝑝𝑙𝑒$

$𝐿_\text{𝑠𝑖𝑚𝑝𝑙𝑒} := \mathbb{E}_{𝑥0}\, \epsilon \bigg[ \frac {\beta_𝑡^2} {2 \sigma 𝑇^2 2\alpha_t(1 − \bar{\alpha}𝑡)} \bigg] \epsilon − \epsilon_\theta ( \sqrt {\bar{\alpha}_𝑡} 𝑥_0 + \sqrt {1 − \bar{\alpha_t\epsilon}})\parallel^2 \quad (29)$

到目前为止，大多数扩散模型使用 DDPM 的训练策略。但也有一些例外。DDIM 的训练目标可以通过在 DDPM 中添加一个常数来转换，但它不依赖于马尔可夫步长假设；改进的 DDPM 训练模式 $L_\text{ℎ𝑦𝑏𝑟𝑖𝑑}$ 是将 DDPM 的训练对象 $𝐿_\text{𝑠𝑖𝑚𝑝𝑙𝑒}$ 与一个带变分下界的词 $𝐿_\text{𝑣𝑙𝑏}$ 相结合。然而， $𝐿_\text{𝑠𝑖𝑚𝑝𝑙𝑒}$ 仍然发挥着这些培训方法的主要作用。

# 2.3.2 分数匹配训练策略

传统的分数匹配技术对对数密度函数的 Hessian 计算量较大。为了解决这个问题，先进的方法找到了避免 Hessian 计算的方法。隐式分数匹配 (ISM)[73] 将真实分数密度视为非归一化的密度函数，可以通过神经网络进行优化。切片分数匹配 (SSM)[77] 通过将分数投影到随机向量上的反向模式自动微分，提供了一种无扰动的分数估计方法。

$𝐿_{𝐼𝑆𝑀} := \mathbb{E} \bigg[ \frac {1} {2}\parallel 𝒔_\theta (𝑥) \parallel^2_2 + ∇ (𝒔_\theta ) \bigg] \quad (30)$

$𝐿_{𝑆𝑆𝑀} := \mathbb{E}_ {𝑝_v}\mathbb{E}_{𝑝_{data}} \bigg[ 𝑣 >∇𝑥 𝑠_theta (𝑥)𝑣 + \frac {1 }{2} \parallel𝑠_\theta (x)\parallel_2^2 \bigg] \quad(31)$

然而，由于真实数据的低流形问题以及低密度区域的采样问题，去噪分数匹配可能是提高分数匹配的较好解决方案。降噪分数匹配 (DSM)[69] 通过扰动一系列不断增加的噪声，将原始的分数匹配转化为扰动核学习。

$𝐿_{𝐷𝑆𝑀} := \frac {1} {2} \mathbb{E}_{𝑞_\sigma( (\tilde{𝑥} |𝑥) 𝑝_{𝑑𝑎𝑡𝑎} (𝑥)) } [\parallel 𝑠_\theta (\tilde{𝑥}) − ∇\tilde{𝑥} 𝑙𝑜𝑔𝑞_\sigma (\tilde{𝑥}|𝑥)\parallel_2^2] \quad (32)$

根据 Song 等人的研究，噪声分布定义为𝑞_𝜎(\tilde{𝑥} |𝑥)= N(\tilde{𝑥} |𝑥，𝜎^2𝐼)。因此，对于每个给定的𝜎，特定的表达式去噪分数匹配目标

$𝐿(\theta; \sigma) := \frac{1} {2} \mathbb{E}_{𝑝_{data}(x)}\mathbb{E} _{\tilde{𝑥} ∼N(x, \sigma^2 𝐼) } \bigg[ \parallel s_\theta (\tilde{𝑥}, \sigma) + \frac {\tilde{𝑥} − x} {\sigma^2}\parallel^2_2 \bigg] \quad (33)$

# 2.4 采样算法

重构数据分布需要采样。在每个采样步骤中，从随机噪声中生成的样本将再次被细化，以更接近原始分布。在这一小节中，我们将介绍三个具有里程碑意义的工作的基本采样算法。

# 2.4.1 原始采样

原始采样 [78] 的初始思想是用逆马尔可夫梯度逐步重建的。

# 2.4.2 Langevi 动力学采样

固定步长𝜖>0, Langevin 动力学可以仅通过分数函数 (Song 等人) $∇_𝑥𝑙𝑜𝑔𝑝(𝑥)$ 从概率密度中产生样本 $𝑝(𝑥)$ 。

# 2.4.3 预估校正器 (PC) 采样

PC 采样 [79] 的灵感来自一种 ODE 黑盒 ODE 求解器 [80]，[81]，[82]，以产生高质量的样本并权衡所有反向 SDE 的效率精度。采样过程包括预测采样器和校正采样器。

# 3 算法改进

目前，如何提高扩散模型的速度和降低计算成本是目前研究的主要问题。在强条件设置的帮助下，扩散采样只需几步即可实现 [42]，[61]，[83]。一般情况下，扩散模型需要数千步才能生成高质量的样本。围绕提高采样速度，从不同方面进行了大量的工作。此外，为更广泛的应用处理不同范围的数据，通过基于肘的表达模型优化对数似然，以及通过降维技术减少计算成本和时间等也很重要。在本节中，我们将改进算法与待解决的问题分开。针对每个问题，给出改进技术的意义和相关分类。

# 3.1 加速改进

扩散模型具有很强的生成能力，但采样步长和采样速度慢限制了模型的实用性。为了改善这种情况，先进的技术可以分为四类，包括训练方案增强、免训练加速采样、混合建模设计和分数扩散统一设计。

# 3.1.1 训练计划

训练计划的改进意味着改变传统的训练方法，如扩散方案和噪声方案，这些方法与采样无关。最近的研究表明，训练方案中的关键因素影响学习模式和模型的性能。因此，在本节中，将训练增强分为三类：知识蒸馏、扩散方案学习和噪声尺度设计。

知识蒸馏 知识蒸馏是一种新兴的获取高效小规模网络的方法，它将 “知识” 从具有高学习能力的复杂教师模型转移到简单的学生模型 [124]，[125]。因此，学生模型在模型压缩和模型加速方面具有优势 [126]，[127]，[128]，[129]。

Salimans 等人 [61] 首先利用核心思想，通过从一个采样模型逐步提取知识到另一个采样模型来改进扩散模型。在每个蒸馏步骤中，学生模型在训练之前从教师模型中重新加权，以生成与教师模型一样接近的一步样本。因此，在每个蒸馏过程中，学生模型将其采样步骤减半。

遵循与使用替代参数化方法的 DDPM 相同的训练目标，渐进蒸馏模型仅用四个步骤就实现了 2.57 的 FID。ProDiff [130] 将这一核心思想用于文本到语音的生成。与渐进式蒸馏不同，去噪学习直接通过最小化两个分类分布之间的 KL 散度从头开始提取知识。

扩散模式学习 扩散采样部分由前向过程决定。因此，学习一个有效的扩散过程来间接优化反向过程是实现加速改进的有效方法。

最近的研究集中于分析扩散步骤。从 ELBO 最小化的理论角度来看，CCDF [87] 和 Franzese 等人 [88] 建立了一个优化问题，其中数字扩散步长被视为最小化 ELBO 的变量。在分析中采用了收缩理论 [131] 和间隙函数 [132] 等特殊技术。另一种观点是基于截断。截断模式的关键思想是在 GAN 和 VAE 等其他生成模型的帮助下生成更少分散的数据。TDPM [85] 通过对 GAN 和条件传输 (CT) 学习的隐式生成分布进行采样 [133]，截断扩散和采样过程。类似地，早期停止 (ES) DDPM [86] 从潜空间中学习以生成隐分布。与理论分析相比，截断过程处理了生成速度和样本质量之间的权衡。由于生成的样本在扩散和其他生成模型之间存在差异，因此实际上需要探索一个优化的截断比。

噪声尺度设计 在扩散和反向过程中，每个噪声注入步骤都可以看作是在轨迹上的随机行走，这表明噪声尺度学习可以指导合理的噪声和规则采样。因此，通过设计方差和噪声尺度来正则化扩散和采样步骤可以引导快速收敛。将噪声尺度作为可学习参数的现有方法包括正向噪声设计和逆向噪声设计。

在正向噪声设计方法中，VDM [66] 将噪声标量重新参数化为信噪比，直接连接噪声尺度，指出噪声尺度设计决定了模型类型和模型性能。FastDPM [89] 从时间步长或方差标量获得前向噪声，将噪声设计与 ELBO 优化联系起来。在反向噪声设计方法中，改进的 DDPM [60] 通过训练包含 $𝐿_{𝑠𝑖𝑚𝑝𝑙𝑒}$ 和 $𝐿_{𝑣𝑙𝑏}$ 的混合损失函数来学习隐含的反向噪声尺度。此外，San Roman 等人在每一步进行初始采样之前，利用噪声预测网络直接更新反向噪声尺度。

# 3.1.2 免训练采样

许多方法专注于改变训练模式和噪声方案以提高采样速度，但重新训练模型需要额外的计算，并导致训练不稳定的风险。值得庆幸的是，存在一类直接用预训练模型增强采样算法的方法，称为无训练采样。高级免训练采样旨在提出一种高效的采样算法，以更少的步骤和更高的精度从预训练模型中获取知识。它包含四类：解析采样器、隐式采样器、微分方程求解采样器和动态规划调整。

分析方法 现有的免训练采样方法将反向协方差尺度作为手工构造的噪声序列，没有考虑状态。Bao 等人 [91] 提出了动态执行采样步骤求解协方差优化问题的分析方法。analysis - dpm [91] 基于假设每一步的均值都是相反的，从而完成反向噪声选择。对于未给出优化反向均值的情况，需要对均值和协方差进行修正。Extend analysis - dpm [92] 通过另一个预训练 DDPM 模型的噪声预测网络进行进一步的噪声校正。

隐式采样器隐式采样器是一类不需要扩散模型重新训练的跳步采样器。通常，DDPM 中重建原始数据分布的生成过程与扩散过程所需的步数相同。然而，扩散模型具有所谓的解耦特性，不需要等效的扩散和采样步数。受生成式隐式模型 [134] 的启发，Song 等人 [68] 提出了具有确定性扩散和跳步采样的隐式采样方法。DDIM 首先利用连续过程公式 [75]、[135]，借助神经 ODE 解决跳步加速问题:

$d\bar{𝑥}(𝑡) = \epsilon^{(𝑡)}_\theta ( \frac{ \bar{𝑥}(𝑡)}{\sqrt {\sigma^2 + 1}} ) d\sigma(𝑡) \quad (34)$

其中𝜎_𝑡的参数为 $\sqrt {1−\alpha} / \sqrt \alpha$ ， $\bar {𝑥}$ 的参数为 $x / \sqrt \alpha$ 。此外，该概率可视为一种分数 SDE，由离散公式推导得到:

$\frac{ 𝑥_𝑡−\Delta_𝑡}{ \sqrt{\alpha_𝑡−\Delta _𝑡}} = \frac {𝑥_𝑡}{ \sqrt{ \alpha_𝑡}} + \bigg( \frac{1 − \alpha_𝑡−\Delta_𝑡 }{\alpha_𝑡−\Delta_𝑡} − \sqrt {\frac {1 − \alpha_𝑡} {\alpha_𝑡 }}\bigg) \epsilon ^{(𝑡)} _\theta (𝑥_𝑡) \quad (35)$

FastDPM [89] 遵循 DDIM 的离散公式，通过重新设计反向噪声调度改进了采样算法。此外，由于 DDIM 被认为是概率流 ODE 的一种 [75]，因此许多 ODEsolver 增强工作适用于隐式求解器加速。DEIS [136] 和 DPMsolver [63] 不仅将高阶 ODEsolver 应用于 PNDM [76] 和 iODE [96]，还将概率流 ODE 重新表达为半线性 ODE 以提高采样速度。除上述两种改进路径外，Watson 等人提出的具有跳步性质的动态规划采样算法也可视为一种隐式采样器。

基于上述改进的隐式采样器，gDDIM [94] 在 SDE 框架中使用不同类型的核将它们推广为一个 DDIM 族，包括 DDPM、DDIM 和临界阻尼朗之万扩散 (CLD)[137]，通过多步指数采样器实现隐式扩散模型的加速。隐式扩散因其微分方程形式和跳跃机制而拥有更广阔的增强空间。还需要探索具有更少采样步骤和合理的理论约束 (如流形假设和稀疏性) 的进一步方法。

微分方程求解器采样器 微分方程 (DE) 求解器采样器是一类求解器，用于基于 ode 和 sde 的公式，以最小化扩散采样期间的近似误差。受 Score SDE [65] 的启发，获得高质量样本是一个使用数值求解器的微分方程求解过程。因此，借助于现有的快速稳定的 ODE/SDE 求解器，基于微分的方法因其简洁的公式和广泛的求解器而受到越来越多的关注。[138]、[139] 一般来说，有两种基本的 DE 公式：SDE 公式在方向场中行走时具有随机性；具有确定性质的 ODE 公式具有较快的速度。对于 DE 求解器 [140]、[141]、[142]、[143]，高阶 DE 求解器具有较小的逼近误差和较高的收敛阶，需要更多的评估 [144]，并且存在不稳定问题。在这一小节中，我们将介绍当前基于不同框架和 DE 求解器的权衡的算法。我们将其分为速度优先和精度优先。

对于利用高阶求解器获得首选精度的方法，使用高阶 SDE 求解器提出了 Ito-Taylor 采样方案 [97]ˆ。此外，理想导数替换以一种棘手的方式用于参数化得分函数，以避免高阶导数计算。通过应用线性求解器和高阶求解器来改进整个过程的速度优先方法包括 Gotta Go Fast [93]， iODE [96] 和 PNDM [76]。Gotta Go Fast 实现了一种基于方向性引导的步长调整算法。采样过程将线性求解器 (Euler- maruyama 方法) 与高阶求解器 (改进的 Euler 方法) 和外推技术相结合，以减少额外的计算量。在确定性扩散 ODE 中，iODE 采用了二阶 Heun 求解器和调整的时间步长。PNDM 探索了不同的数值求解器可以共享相同的梯度，从而在使用扩散微分方程的高阶求解器 (Runge-Kutta 方法) 的三个步骤后，探索了线性多步方法。此外，DPM-solver [63] 还利用了不同阶数的求解器。根据经验，DPM 求解器 - fast (混合使用不同顺序的求解器进行进度) 在所有选择中表现最好。因此，经过良好的设计，一个统一的交叉排序求解器可以取得更好的效果。

此外，从微分方程表述的角度来看，DPM-solver 和 DEIS [93] 创造了除 SDE 和扩散 ODE 之外的新的观点。均衡挤压微分方程可以看作是一种半线性形式，通过这种形式可以减少离散误差。另一方面，DEIS 使用带指数积分器的多步 PCsampling 方法 [136] 改进了数值 DDIM [145]。目前，基于半线性的 ODE 性能最好，但仍然需要其他技术，如阈值极限 [93] 和解析形式 [63]。

动态规划调整 动态规划 (DP) 通过记忆技巧 [146]，[147]，[148]，[149]，实现遍历所有选择，以缩短时间找到最优解。与其他有效的采样方法相比，动态规划方法无需设计有效的采样步骤，只需定位最优的采样路径即可在较短的时间内最小化误差。假设从一个状态到另一个状态的每条路径与其他状态共享相同的 KLDivergence, Watson 等人 [95] 提出了一种有效的采样方法，可以直接用最小 ELBO 搜索采样的优化路径。该方法仅需 O𝑇2 的计算和恢复时间，探索了一种优化轨迹的新方法。然而，ELBO 上的最小化有时与 FID 分数不匹配 [150]。受 Kumar 等人的启发，[151] 可微扩散采样搜索 (DDSS)[98] 利用重新物化的技巧来交换内存成本以换取计算时间。现有的动态规划方法以 ELBO 和噪声为优化目标，面向时间步长和面向样本质量 (距离) 的方法有可能取得较好的效果。

# 3.1.3 混合模型

混合建模是指扩展不同类型的生成模型，以结合它们的优势 [152]，[153]，[154]，[155]，[156]，[157]，[158]。对于扩散混合建模，扩散模型具有对其他模型的高速采样 (如对抗性训练网络和自回归编码器) 和高表达 (如归一化流) 的优点。因此，通过将两个或多个模型与特定模式联合起来提取所有优势，不仅可以实现有希望的增强，而且有助于感知扩散模型与其他模型之间的联系。混合建模从混合目的的角度可以分为两类：加速混合和表现力混合。

加速混合 加速混合旨在应用 vae 和 GANs 的高速生成，以节省大量重建扰动较小的数据分布的步骤。与以往的 GAN 相关工作一样，现有的基于 GAN 的方法主要包括两部分：生成器生成样本 $𝑥^\prime_0$ 扩散到 $𝑥_{𝑡−1}$ ，尽可能接近 $𝑥_{𝑡−1}$ , 而鉴别器在 $𝑥_𝑡$ 和 $𝑞(𝑥_𝑡|𝑥_{𝑡−1})$ 的情况下区分 $𝑥\prime_{𝑡−1}$ 和 $𝑥_{𝑡−1}$ 。去噪扩散 GAN [62] 成为第一个用 4 步生成样本的 DDPM 相关模型。遵循类似的模式，基于 VAE 的模型如 DiffuseVAE [99] 和 ESDDPM [86] 也适用。当我们使用 $𝑞(𝑥_{𝑡−1} |x_𝑡，𝑥_0)$ 时，在每个采样步骤中预测 $𝑥0$ 需要很多时间，因此在 $𝑥0$ 生成中使用 VAE 来加速整个过程，这就是 DiffuseVAE 所做的。在 DiffuseVAE 的基础上，ESDDPM 将样本轨迹学习中的早期停止思想与 DiffuseVAE 相结合，利用扩散 VAE 样本生成的条件完成早期停止采样。

表现力混合 混合模型的另一类称为表现力混合支持扩散模型，以不同的模式表达数据或噪声。高表达数据与加速技术相结合，通过节省计算成本来实现加速。高表达方法可分为噪声调制、空间投影和核表达方法。对于噪声调制，DiffFlow [100] 在每个基于 sde 的前向和后向扩散步骤中都采用一个流函数，通过最小化前向过程和后向过程之间的 kl - 散度，自适应有效地添加噪声。虽然由于 flow 函数的反向传播，每一步所需的时间更长，但 DiffFlow 比 DDPM 有 20 倍的加速。空间投影方法利用 NFs 进行数据转换。空间投影方法得益于通过投影模型实现的特定空间属性。LSGM [101] 和 PDM [103] 分别使用 VAE 和 flow 函数获取隐变量，以利用快速计算的优势。Score-Flow [102] 利用归一化流将数据分布转化为去量化场，并进行扩散过程生成去量化样本。用变分去量化将数据投影到去量化场，解决了连续密度与离散数据之间的不匹配问题 [159]、[160]，消除了去量化空间与离散空间之间的差距。另一种表达能力 —— 基于基于能量的模型 [161]、[162]、[163]、[164] 的混合建模，利用了反向转换核上能量函数 [105] 表达灵活性的优点。

图 4 所示。加速混合建模管道。蓝色的线表示 TDPM 的管道。将部分扰动数据 $𝑥𝑡$ 作为 GAN 生成器的基础真值条件，从潜函数中生成具有相同扰动水平的条件样本 $𝑥_𝑡$ ，然后与 $𝑥_𝑡$ 进行比较。成功的样本作为逆向过程的开始。ES-DDPM 没有使用 GAN 作为高速生成器，而是遵循 TDPM 与 VAE 的模式，用绿线表示。此外，DiffuseVAE 利用 VAE 在每一步采样中生成条件 $\hat{𝑥}_0$ 。

# 3.1.4 得分与扩散统一

score SDE [65] 基于扩散模型和去噪得分匹配方法，构建了一个统一的连续框架，将扩散和扰动过程联系起来，为相关任务提供了一个通用的工具。分数 - 扩散统一模型之所以有效，是因为地标统一的见解有助于探索有效的采样机制。此外，通用性的工作为提升扩散模型的能力提供了多个思考角度。有两类工作：重新表述基于扩散的模型的广义工作，以及连接分数和扩散网络的统一工作。

图 5 所示。表现力混合建模管道。增强表达能力的模型在训练、扩散和采样过程中保持与 DDPM 相同的过程，用黑线表示。此外，其他改进用其他颜色突出显示。红线显示了 DiffFlow 的管道，它在每一步添加了一个流量函数和相关的逆函数。蓝色和绿色线条的工作代表了通过联合训练混合模型的潜空间扩散的思想。在 LSGM 和 PDM 中使用了不同的支持生成模型。此外，Score-Flow 使用 flow 函数作为离散空间到去量化空间的投影。然后使用传统扩散方法生成去量化样本；

对于广义视角，FastDPM [89] 和 VDM [66] 分别通过 noisetime 双射映射和信噪比完成了对噪声调度的统一。这两种方法都通过重新定义变量来分析训练和采样方案。广义 DDIM (gDDIM)[94] 在每个步骤中根据转换核统一 DDIM 族，有利于从底层进行隐式加速。

Gong 等人 [109] 从统一的角度揭示了分数匹配与归一化流之间隐藏的联系，并提供了一种用流 ode 表示分数匹配的新方法 [75]，[135]。Bortoli 等人 [108] 提供了一种使用 Doob-h 变换模拟扩散桥的变分分数匹配方法 [165]。GGDM [95] 用非马尔可夫采样器和广泛的边际方差来推广扩散模型，以探索更广泛的扩散族的公式。冷扩散 [107] 将不同的正向和反向核视为统一的核，将先验分布扩展到任何时间。Huang 等 [110] 提出了一种似然估计的变分形式，增强了变分间隙最小化的理论支持。

# 3.2 数据结构多样化

目前，大多数加速和降低计算成本的改进方法都集中在 rgb 图像数据的性能上，以评估生成效果。事实上，现有的大多数数据都可以作为扩散模型的输入，从而在其他领域得到广泛的应用，如氨基酸残基 [55]、音频序列 [47]、扭转角 [54] 等。更重要的是，对传统的以高斯分布作为先验核和过渡核的扩散模式进行了扩展，以探究不同分布模式对扩散的影响。为了提高扩散模型的泛化能力，将分布多样化划分为离散空间、连续空间和带结构约束的约束空间 3 个方面。

# 3.2.1 连续空间

如前文所述，去量化空间投影解决了连续密度与离散数据之间的不匹配问题 [159]、[160]，同时也消除了去量化空间与离散空间 [27] 之间的差距 [166]。用于三维形状生成、三维形状补全和多模态补全的点云数据受到更多关注 [167]，[168]，但由于采样过程不规则，使用自回归编码器和归一化流遇到障碍。对于连续空间方法，主要介绍了图像空间和点云空间两类方法。空间泛化是通过投影网络如 VAE 和数据转换的归一化流来完成的。

图像 & 点云 Score-flow [102] 利用流函数将 rgb - 图像投影到去量化空间，实现了生成精确样本的扩散技术。冷扩散 [107] 将图像投影到任何类型的分布中，通过错误的重构器 R (所有类型采样器的泛化项) 设计消除了预测误差。

Luo 等人首先提出了 [32] 点云生成算法，对点云数据生成潜样本，并进行变换以获得高质量的三维形状。其他技术，如 [33]，[111]，[112]，以类似的方式完成形状生成和补全任务。潜空间变换中使用的一些轻微改进，如规范映射 [112]、条件特征提取子网 [33] 和点体素表示 [111]。

潜空间与表达性混合建模类似，由于不同类型的复杂数据结构需要一种统一的方法来归纳和分析，潜空间数据分布通常用于扩散应用。现有的方法大多将数据投影到连续空间，并借助 EDM [21] 和抗原扩散 [22] 等扩散模型的高质量生成能力，获得了良好的性能。因此，潜在空间处理是一种新的应用模式。

# 3.2.2 离散空间

深度生成模型在自然语言处理 [169]、[170]、多模态学习 [171]、[172] 和科学人工智能 [173]、[174] 等领域取得了许多重大成就，具有相关的架构和先进技术。在这些成功案例中，处理离散数据如句子、残差、原子和矢量量化数据是消除归纳偏差的必要条件。因此，在前人研究的基础上，利用扩散模型进行相关任务具有很好的前景。我们将主要问题分为处理文本 & 分类数据和矢量量化数据。

文本 & 分类 为了处理类别型特征，D3PM [64] 首先将扩散算法推广到离散空间，通过定义的方式处理句子、图像等离散数据

$𝑞 (𝑥_𝑡 | 𝑥_{𝑡−1}) = \text{Cat}(𝑥_𝑡 ; 𝑝 = 𝑥_{𝑡−1}𝑸_𝑡) \quad (36)$

其中 $[𝑸_𝑡]_{𝑖𝑗} = 𝑞 (𝑥_𝑡 = 𝑗 | 𝑥_{𝑡−1} = 𝑖)$ 被定义为过渡， $\text{Cat}(·)$ 被定义为在 one-hot 行向量上的类别分布。

与 D3PM 类似，多项式扩散 [113] 和 ARDM [114] 将分类扩散扩展为多项式数据，用于生成语言文本和分割图和无损压缩。

矢量量化 为了处理多模型问题，矢量量化 (VQ) 数据被用来将不同领域的数据组合成码书。VQ 数据处理在自回归编码器中取得了很好的性能 [175]。Gu 等 [116] 首次将扩散技术应用到 VQ 数据中，解决了 VQ- vae 存在的单向偏差和累积预测误差问题。进一步的工作，如 Xie 等人 [119]，Cohen 等人 [118] 和改进的 VQ-Diffusion [117]，通过将转换过程重新定义为，分别完成了文本 - 符号姿态生成、扩散 - 桥生成和推理策略改进。

$𝑞 (𝑥_𝑡 | 𝑥_{𝑡−1}) = 𝒗 ^T (𝑥_𝑡) 𝑸_𝑡 𝒗 (𝑥_{𝑡−1}) \quad (37)$

其中 $𝑣(𝑡)$ 是一个与代码本长度相等的 one-hot 向量， $𝑄(𝑡)$ 称为概率转移矩阵：

$Q_t = \begin{bmatrix} \alpha_t + \beta_t & \beta_t & \beta_t & \dots & 0\\ \beta_t & \alpha_t + \beta_t & \beta_t & \dots & 0\\ \vdots & \vdots & \vdots & \ddots & \vdots \\ \gamma_t & \gamma_t & \gamma_t & \dots & 1 \\ \end{bmatrix} \quad (38)$

训练方法类似于 DDPM，但具有新的表达式方案。

# 3.2.3 约束空间

基于图的神经网络跨越传统的数据约束，重新表达现有数据之间的潜在联系，如社交网络 [176]，[177]，分子 [178]，[179] 和天气条件 [180]，[181]。此外，流形学习方法具有无冗余表达和全面描述 (如蛋白质和 RNA) 的优点。因此，约束空间扩展方法是基于黎曼流形和图的。

流形空间 目前大多数图像和文本等数据结构都定义在欧氏空间中，而欧氏空间是一种平面几何流形。然而，在机器人 [182]、地球科学 [?] 领域存在一系列数据。[183] 和黎曼流形 [185] 中定义的蛋白质建模 [184]，其中现有的欧氏空间方法不能很好地捕捉球体的特征。因此，最近的方法 RDM [121] 和 RGSM [120] 通过 score SDE 框架 [65] 将扩散技术应用于黎曼流形中，但略有变化。

ℹ️流形空间 Manifold Space (以下内容由 chatGPT 生成)

展开

Manifold Space（流形空间）是数学中的一个概念，指的是可以用欧几里得空间的某些局部性质来描述的几何对象。简单来说，就是可以局部看作欧几里得空间的对象，但是整体上不一定是欧几里得空间。

在机器学习中，Manifold Space 通常用于表示数据的结构，因为数据通常不是直接存在于欧几里得空间中，而是存在于一个更复杂的空间中。因此，将数据表示为 Manifold Space 上的点可以更好地反映数据的本质特征，从而实现更好的数据分析和建模。

与上述两种方法不同，PNDM [76] 从流形空间中获得支持来求解用于采样的神经微分方程，这实际上是微分方程采样器的一般化版本 [186]。

图文献 [187] 指出，图是一个越来越受欢迎的话题，但在扩散领域很少有工作提出。在 EDP-GNN [122] 中，在应用传统离散分数匹配管道之前，通过邻接矩阵处理图数据，以捕获图的排列不变性。

# 3.3 似然优化

大多数变分方法 [175]、[188] 和扩散方法 [67] 通过变分证据下界 (ELBO) 的原理来训练模型，因为对数似然是不可处理的。然而，有时对数似然仍然不具有竞争力，因为 ELBO 和对数似然之间的差异没有同时最小化。因此，几种方法 [60]，[102] 直接关注似然优化问题来解决这个问题。求解方法可分为两类：改进的 ELBO 算法和变分间隙优化算法。

# 3.3.1 改进的 ELBO

在 ELBO 的基础上，许多工作试图收紧下界，使对数似然更具竞争力。有两种方法：评分联系和重新设计。

分数连接: 受 [189]，[190] 的启发，分数连接方法在 ELBO 优化和分数匹配之间提供了新的联系，通过改进的分数训练来解决似然优化问题。Scoreflow [102] 将 ELBO 中的前向 KL 散度视为用加权方案优化分数匹配损失。Huang 等 [110] 将布朗运动作为隐变量来显式跟踪对数似然估计，并在变分框架中建立了估计和加权分数匹配之间的桥梁。同样，NCSN++[123] 通过在 ELBO 中引入截断因子来弥合理论差距。

重设计: 与损失转换技术相比，重新设计方法通过重新设计噪声规模和训练目标直接收紧 ELBO。VDM [66] 和 ddpm++[123] 分别将高级训练目标与信噪比和截断因子联系起来，通过寻找最优因子来优化 ELBO。[60] 和 D3PM [64] 提出了基于 ELBO 的混合损失函数，并给出了一种改进 ELBO 的加权方案。

$𝐿_\text{hybrid} = 𝐿_\text{simple} + \lambda𝐿_{vlb}\quad (39)$

# 3.3.2 变分间隙优化:

除了设计高级 ELBO，最小化变分间隙仍然是最大化对数似然的一种方法。基于变分间隙优化 [191] 在 VAE 领域的成功，INDM [103] 应用流量模型来表达变分间隙，通过在隐空间上联合训练双向流量模型和线性扩散模型来最小化间隙。此外，PDM 通过引入 VAE 的编码器损失来实现变分间隙的表达。通过集体训练，存在一个唯一的最优解决方案来消除差距。

# 3.4 降维

与变分自编码器将数据投影到潜在的低维度不同，计算高维数据集在训练和采样期间是非常消耗资源的。然而，现有的扩散模型是基于等价空间上的转移核，导致降维效果不佳。因此，在归一化流和 VAE 等降维模型的帮助下，提高模型表达能力的混合建模问题在解决这个问题方面显示出了巨大的潜力。

隐式投影 几种混合建模方法通过流函数和 VAE-encoder 将训练数据投影到低维的隐空间，进行扩散和去噪过程。LSGM [101]、INDM [104] 和 PDM [103] 遵循这种模式，以便在更小的空间中学习更平滑的模型，触发更少的网络评估和更快的采样 [101]。此外，采用基于 ELBO 最大化和对数似然最大化的扩散模型和投影模型联合训练的加权训练技术。

# 4 应用

扩散模型具有生成真实样本的强大能力，已广泛应用于计算机视觉、自然语言处理和生物信息学等各个领域。

# 4.1 计算机视觉

# 4.1.1 低级视觉

CMDE [26] 实证比较了基于分数的扩散方法对视觉图像数据的条件分布建模，并引入了多速度扩散框架。通过利用条件的可控扩散速度，CMDE 在修复和超分辨率任务中的 FID 分数方面优于 vanilla 条件去噪估计器 [69]。DDRM [192] 提出了一种有效的、无监督的后验采样方法用于图像恢复。在变分推理的启发下，DDRM 展示了在超分辨率、去模糊、修复和扩散模型着色方面的成功应用。Palette [83] 进一步开发了一个基于扩散的统一框架，用于低级视觉任务，如着色、修复、裁剪和恢复。该工作以其简单而通用的思想，证明了扩散模型与 GAN 模型相比的优越性能。DiffC [193] 提出了一种无条件生成方法，用单个扩散模型对污染像素进行编码和去噪，这显示了扩散模型在有损图像压缩中的潜力。SRDiff [28] 采用基于扩散的单幅图像超分辨率模型，取得了较好的效果。RePaint [194] 是一种自由形式的修复方法，直接采用预训练扩散模型作为生成先验，仅通过使用给定的图像信息对未掩码区域进行采样来替换反向扩散。尽管没有对 vanilla 预训练扩散模型进行修改，但该方法能够在极端任务下优于自回归和 GAN 方法。

# 4.1.2 高级视觉

FSDM [29] 是一种基于条件扩散模型的少样本生成框架。利用视觉 transformer 和扩散模型的进步，FSDM 可以在测试时快速适应各种生成过程，并在少样本生成中表现良好，具有强大的迁移能力。CARD [30] 提出了分类和回归扩散模型，结合基于去噪扩散的条件生成模型和预训练的条件均值估计器来预测给定条件下的数据分布。CARD 从条件生成的角度进行监督学习，利用与评价指标间接相关的目标进行训练，在扩散模型的帮助下表现出较强的不确定性估计能力。受 CLIP [195] 的启发，GLIDE [171] 探索了以文本为条件的现实图像合成，并发现具有无分类器指导的扩散模型产生了包含广泛学习知识的高质量图像。DreamFusion [196] 将 GLIDE 的成就扩展到 3D 空间。为了在平滑和有限的空间内获得具有表现力的生成模型，LSGM [101] 在变分自编码器框架的帮助下，建立了一个在潜空间中训练的扩散模型。SegDiff [197] 通过汇总基于扩散的概率编码器和图像特征编码器的特征图，扩展了用于执行图像级分割的扩散模型。另一方面，视频扩散 [198] 在时间轴上扩展扩散模型，并通过利用典型设计的重建引导条件采样方法进行视频级生成。VQ-Diffusion [31] 通过探索离散扩散模型的无分类器指导采样，提出了一种高质量的推理策略，改进了 vanilla 矢量量化扩散。该方法在 ImageNet [199] 和 MSCOCO [200] 等大型数据集上表现出优越的性能。Diff-SCM [201] 在生成扩散模型的基础上构建了深度结构模型。它通过确定性的前向扩散推断潜在变量并干预后向过程来实现反事实估计。

# 4.1.3 3D 视觉

[32] 是基于扩散的 3D 视觉任务的早期工作。受非平衡热力学的启发，本文将点云中的点类比为热力学系统中的粒子，并将扩散过程应用于点云的生成，取得了良好的性能。PVD [202] 是一种基于扩散的点云生成的并发工作，但执行无条件生成，不需要额外的形状编码器，而采用混合和点体素表示来处理形状。PDR [33] 提出了一种基于扩散的点云补全范式，该范式应用扩散模型根据部分观察结果生成粗补全，并对另一个网络生成的输出进行细化。针对点云去噪问题，[34] 引入神经网络来估计点云分布的得分，并采用梯度上升的方法去噪点云。

# 4.1.4 视频建模

视频扩散 [198] 将基于扩散的生成模型的进展引入了视频领域。RVD [203] 利用扩散模型生成以上下文向量为条件的确定性下一帧预测的残差。FDM [204] 应用扩散模型来辅助长视频预测，并执行照片般逼真的视频。MCVD [35] 提出了一种基于分块掩码帧的条件视频扩散框架，用于视频预测和插值。RaMViD [36] 使用 3D 卷积神经网络将图像扩散模型扩展到视频，并设计了一种用于视频预测、填充和上采样的条件反射技术。

# 4.1.5 医疗应用

将扩散模型应用于医学图像是自然的选择。Score-MRI [37] 提出了一种基于扩散的核磁共振成像 (MRI) 重建框架。[205] 是一项并发工作，但提供了一个更灵活的框架，不需要成对的数据集进行训练。通过在医学图像上训练的扩散模型，这项工作利用了物理测量过程，并专注于采样算法，以创建与观测测量和先验估计数据一致的图像样本。R2D2+[206] 将基于扩散的 MRI 重建和超分辨率融合到同一个网络中，以生成端到端的高质量医学图像。[207] 探索了生成扩散模型在医学图像分割中的应用，并进行了反事实扩散。

# 4.2 序列建模

# 4.2.1 自然语言处理

受益于扩散模型的非自回归机制，diffusion - lm [38] 利用连续扩散将含噪向量迭代降噪为词向量，执行可控的文本生成任务。比特扩散 [39] 提出了一种用于生成离散数据的扩散模型，并将其应用于图像描述任务。

# 4.2.2 时间序列

在时间序列填补方面，CSDI [40] 采用以观测数据为条件的基于分数的扩散模型。受掩码语言建模的启发，开发了一种自监督训练程序，将观测值分离为条件信息和填补目标。SSSD [41] 进一步引入结构化状态空间模型来捕获时间序列数据中的长期依赖关系。CSDE [208] 提出了一种概率框架来建模随机动态，并引入了马尔可夫动态规划和多条件前向后向损失来生成复杂的时间序列。

# 4.3 音频

WaveGrad [42] 和 DiffWave [43] 是将扩散模型应用于原始波形生成并获得优越性能的开创性工作。GradTTS [44] 和 DiffTTS [209] 也实现了扩散模型，但生成的是 mel 特征而不是原始波。DiffVC [210] 进一步挑战了单次多对多语音转换问题，并开发了一种随机微分方程求解器。DiffSinger [45] 基于浅层扩散机制将普通声音生成扩展到歌唱声音合成。

Diffsound [211] 提出了一个以文本为条件的声音生成框架，采用离散扩散模型代替自回归解码器来克服单向偏差和累积误差。EdiTTS [46] 也是用于文本到语音任务的基于扩散的音频模型。通过对先验空间的粗扰动，在去噪反转过程中诱导出期望的编辑。Guided-TTS [47] 和 Guided-TTS2 [48] 也是早期的一系列文本到语音模型，它们成功地将扩散模型应用于声音生成。[213] 将语音扩散模型与语谱域条件反射方法相结合，并使用训练期间未见过的声音进行文本到语音转换。InferGrad [220] 在训练时考虑了推理过程，并在推理步数较小时改进了基于扩散的文本到语音模型，实现了快速和高质量的采样。SpecGrad [49] 借鉴信号处理的思想，在条件 log-mel 谱图的基础上，采用扩散噪声的时变谱包络。ItoTTS [24] 将文语转换和声码器统一到ˆ中，这是一个基于线性 SDE 的框架。ProDiff [31] 提出了一种渐进快速扩散的高质量文语转换模型。ProDiff 没有进行数百次迭代，而是通过预测干净的数据来对模型进行参数化，并使用教师合成的梅尔语谱图作为目标，以减少数据差异并做出清晰的预测。BinauralGrad [214] 是一个基于扩散的两阶段框架，探讨了在给定单声道音频的双耳音频合成中扩散模型的应用。

# 4.4 科研中的人工智能

# 4.4.1 分子构象生成

ConfGF [215] 是基于扩散的分子构象生成模型的早期工作。在保持旋转和平移等变性的同时，ConfGF 通过朗格万动力学与物理启发的梯度场生成样本。然而，ConfGF 仅模拟了一阶、二阶和三阶近邻之间的局部距离，因此未能捕获无界原子之间的长程相互作用。针对这一挑战，DGSM [52] 提出根据原子之间的空间邻近性动态构建分子图结构。GeoDiff [53] 发现，在扩散学习过程中，模型被喂食扰动的距离矩阵，这可能违反数学约束。因此，GeoDiff 引入了旋转 - 平移不变的马尔可夫过程来对密度施加约束。EDM [21] 进一步扩展了上述方法，引入离散原子特征并推导出对数似然计算所需的方程。扭转扩散 [54] 在扭转角空间上工作，通过限制在最灵活自由度下的扩散过程产生分子构象。DiffDock [216] 基于以往的几何深度学习方法，对过渡角、旋转角和扭转角进行去噪得分匹配，以生成蛋白质 - 配体复合物中的药物构象。

# 4.4.2 材料设计

CDVAE [217] 探索了稳定物质生成的周期结构。为了解决稳定材料只存在于具有所有原子可能周期排列的低维子空间中的挑战，cdvee 设计了一个基于扩散的网络作为解码器，其输出梯度导致能量局部最小，并更新原子类型以捕获特定的局部键合偏好，取决于邻居。

受最近成功的抗体建模 [221]、[222]、[223] 的启发，最近的工作 [55] 开发了一种基于扩散的生成模型，明确靶向特定抗原结构并生成抗体。该方法联合采样抗体序列和结构，在序列 - 结构空间中迭代生成候选抗体。

[56] 为蛋白质结构和序列引入了一种基于扩散的生成模型，并学习到对旋转和平移等变的结构信息。ProteinSGM [218] 将蛋白质设计作为图像修复问题，并应用基于条件扩散的生成来精确建模蛋白质结构。通过传统的 DDPM 思想，DiffFolding [219] 产生集中于内角的蛋白质主干。

# 5. 结论与讨论

扩散模型在越来越广泛的应用领域中变得越来越重要。为了更好地利用扩散模型的力量，本文对扩散模型的几个方面进行了全面和最新的综述，包括理论、改进算法和应用。希望本文对扩散模型增强及其应用有一定的指导作用。

# 6. 局限和进一步的方向

注意扩散模型类: 现有的大多数改进和应用算法都是基于原始设置为 DDPM。然而，关于扩散模型的广义设置，研究者们忽略了许多方面。如果先验分布是任意随机分布呢？原始数据可以重建吗？如果扰动核变成伯努利分布会怎样？在某些特定情况下有意义吗？微扰对扩散过程的影响有多小？生成数据需要多少步才足够？因此，还需要对先验分布、转移核、采样算法和扩散方案进行进一步有意义的研究。扩散模型应该被视为一个类，而不是基于 DDPM 的模型的集合。

训练目标和评估指标: 大多数基于扩散的模型将训练目标设置为负对数似然的下界 (ELBO) 的证据。然而，目前还没有明确的理论证明 ELBO 和 NLL 是同时优化的。因此，这种不一致性可能会导致设计的真实目标与实际精化之间隐藏的不匹配。因此，将对数似然优化与现有变量联系起来或创建与似然一致的新训练目标的进一步分析方法，可能会指导模型性能的显著提高。

此外，由于数据分布与似然匹配不相等，目前的评估指标 (如 FID 和 IS 分数) 无法完美匹配主要目标。理想的评价指标既要测试样本的多样性，又要测试扩散模型的恢复效果。考虑到足够的类，如 CLIP [195]，多样性分数可能是一个可用的解决方案。结合流形上真实数据的分布距离恢复分数将更准确、更全面地描述模型的生成能力。综上所述，培训目标和评价指标需要遵循初始目标。

应用和归纳偏差: 各种领域，如科学人工智能和自然语言处理，在生成模型的帮助下取得了重大进展，但需要复杂的建模来消除归纳偏差。有一系列任务仍然需要用扩散模型进行细化，以获得比现有生成网络更好的性能。对于当前基于扩散模型的任务，相应的框架主要是基于分数的网络和 DDPM。因此，减少步骤的改进算法应该引起更多的关注，这是我们本次调查的动机之一。

# REFERENCES

[1] D. J. Rezende, S. Mohamed, and D. Wierstra, “Stochastic backpropagation and approximate inference in deep generative models,” in International conference on machine learning. PMLR, 2014, pp. 1278–1286. (document) [2] C. Doersch, “Tutorial on variational autoencoders,” arXiv preprint arXiv:1606.05908, 2016. (document) [3] D. P. Kingma, M. Welling et al., “An introduction to variational autoencoders,” Foundations and Trends® in Machine Learning, vol. 12, no. 4, pp. 307–392, 2019. (document) [4] A. Oussidi and A. Elhassouny, “Deep generative models: Survey,” in 2018 International Conference on Intelligent Systems and Computer Vision (ISCV). IEEE, 2018, pp. 1–8. (document) [5] Y. LeCun, S. Chopra, R. Hadsell, M. Ranzato, and F. Huang, “A tutorial on energy-based learning,” Predicting structured data, vol. 1, no. 0, 2006. (document) [6] J. Ngiam, Z. Chen, P. W. Koh, and A. Y. Ng, “Learning deep energy models,” in Proceedings of the 28th international conference on machine learning (ICML-11), 2011, pp. 1105–1112. (document) [7] A. G. ALIAS PARTH GOYAL, N. R. Ke, S. Ganguli, and Y. Bengio, “Variational walkback: Learning a transition operator as a stochastic recurrent net,” Advances in Neural Information Processing Systems, vol. 30, 2017. (document) [8] T. Kim and Y. Bengio, “Deep directed generative models with energy-based probability estimation,” arXiv preprint arXiv:1606.03439, 2016. (document) [9] I. Goodfellow, J. Pouget-Abadie, M. Mirza, B. Xu, D. WardeFarley, S. Ozair, A. Courville, and Y. Bengio, “Generative adversarial networks,” Communications of the ACM, vol. 63, no. 11, pp. 139–144, 2020. (document) [10] A. Creswell, T. White, V. Dumoulin, K. Arulkumaran, B. Sengupta, and A. A. Bharath, “Generative adversarial networks: An overview,” IEEE signal processing magazine, vol. 35, no. 1, pp. 53– 65, 2018. (document)

[11] J. Gui, Z. Sun, Y. Wen, D. Tao, and J. Ye, “A review on generative adversarial networks: Algorithms, theory, and applications,” IEEE Transactions on Knowledge and Data Engineering, 2021. (document) [12] M. Mirza and S. Osindero, “Conditional generative adversarial nets,” arXiv preprint arXiv:1411.1784, 2014. (document) [13] M. Arjovsky, S. Chintala, and L. Bottou, “Wasserstein generative adversarial networks,” in International conference on machine learning. PMLR, 2017, pp. 214–223. (document) [14] L. Dinh, J. Sohl-Dickstein, and S. Bengio, “Density estimation using real nvp,” arXiv preprint arXiv:1605.08803, 2016. (document) [15] D. Rezende and S. Mohamed, “Variational inference with normalizing flows,” in International conference on machine learning. PMLR, 2015, pp. 1530–1538. (document) [16] I. Kobyzev, S. J. Prince, and M. A. Brubaker, “Normalizing flows: An introduction and review of current methods,” IEEE transactions on pattern analysis and machine intelligence, vol. 43, no. 11, pp. 3964–3979, 2020. (document) [17] S. Bond-Taylor, A. Leach, Y. Long, and C. Willcocks, “Deep generative modelling: A comparative review of vaes, gans, normalizing flows, energy-based and autoregressive models.” IEEE Transactions on Pattern Analysis and Machine Intelligence, 2021. (document) [18] G. Papamakarios, E. T. Nalisnick, D. J. Rezende, S. Mohamed, and B. Lakshminarayanan, “Normalizing flows for probabilistic modeling and inference.” J. Mach. Learn. Res., vol. 22, no. 57, pp. 1–64, 2021. (document), 1 [19] C. Winkler, D. Worrall, E. Hoogeboom, and M. Welling, “Learning likelihoods with conditional normalizing flows,” arXiv preprint arXiv:1912.00042, 2019. (document) [20] C. Saharia, W. Chan, H. Chang, C. A. Lee, J. Ho, T. Salimans, D. J. Fleet, and M. Norouzi, “Palette: Imageto-image diffusion models,” 2021. [Online]. Available: https: //arxiv.org/abs/2111.05826 (document) [21] E. Hoogeboom, V. G. Satorras, C. Vignac, and M. Welling, “Equivariant diffusion for molecule generation in 3d,” in International Conference on Machine Learning. PMLR, 2022, pp. 8867–8887. (document), 3.2.1, 3, 4.4.1, 9 [22] S. Luo, Y. Su, X. Peng, S. Wang, J. Peng, and J. Ma, “Antigen-specific antibody design and optimization with diffusion-based generative models,” bioRxiv, 2022. [Online]. Available: https://www.biorxiv.org/content/early/ 2022/07/11/2022.07.10.499510 (document), 3.2.1 [23] H. Tachibana, M. Go, M. Inahara, Y. Katayama, and Y. Watanabe, “It\ˆ{o}-taylor sampling scheme for denoising diffusion probabilistic models using ideal derivatives,” arXiv preprint arXiv:2112.13339, 2021. (document), 2, 3.1.2, 8 [24] S. Wu and Z. Shi, “Itotts and it ˆ owave: Linear stochastic differen- ˆ tial equation is all you need for audio generation,” arXiv e-prints, pp. arXiv–2105, 2021. (document), 3, 4.3, 9 [25] J. Sohl-Dickstein, E. Weiss, N. Maheswaranathan, and S. Ganguli, “Deep unsupervised learning using nonequilibrium thermodynamics,” in International Conference on Machine Learning. PMLR, 2015, pp. 2256–2265. (document), 2.1.4, 8 [26] G. Batzolis, J. Stanczuk, C.-B. Schonlieb, and C. Etmann, “Con- ¨ ditional image generation with score-based diffusion models,” arXiv preprint arXiv:2111.13606, 2021. (document), 4.1.1, 3, 9 [27] L. Theis, A. van den Oord, and M. Bethge, “A note on the evaluation of generative models,” in International Conference on Learning Representations (ICLR 2016), 2016, pp. 1–10. (document), 3.2.1 [28] H. Li, Y. Yang, M. Chang, S. Chen, H. Feng, Z. Xu, Q. Li, and Y. Chen, “Srdiff: Single image super-resolution with diffusion probabilistic models,” Neurocomputing, vol. 479, pp. 47–59, 2022. (document), 4.1.1, 3, 9 [29] G. Giannone, D. Nielsen, and O. Winther, “Few-shot diffusion models,” arXiv preprint arXiv:2205.15463, 2022. (document), 4.1.2, 3, 9 [30] X. Han, H. Zheng, and M. Zhou, “Card: Classification and regression diffusion models,” arXiv preprint arXiv:2206.07275, 2022. (document), 4.1.2, 3, 9 [31] R. Huang, Z. Zhao, H. Liu, J. Liu, C. Cui, and Y. Ren, “Prodiff: Progressive fast diffusion model for high-quality text-to-speech,” arXiv preprint arXiv:2207.06389, 2022. (document), 4.1.2, 3, 4.3, 9 [32] S. Luo and W. Hu, “Diffusion probabilistic models for 3d point cloud generation,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2021, pp. 2837–2845. (document), 2, 3.2.1, 4.1.3, 3, 8, 9 [33] Z. Lyu, Z. Kong, X. Xu, L. Pan, and D. Lin, “A conditional point diffusion-refinement paradigm for 3d point cloud completion,” arXiv preprint arXiv:2112.03530, 2021. (document), 2, 3.2.1, 4.1.3, 3, 8, 9 [34] S. Luo and W. Hu, “Score-based point cloud denoising,” in Proceedings of the IEEE/CVF International Conference on Computer Vision, 2021, pp. 4583–4592. (document), 4.1.3, 3, 9 [35] V. Voleti, A. Jolicoeur-Martineau, and C. Pal, “Mcvd: Masked conditional video diffusion for prediction, generation, and interpolation,” arXiv preprint arXiv:2205.09853, 2022. (document), 4.1.4, 3, 9 [36] T. Hoppe, A. Mehrjou, S. Bauer, D. Nielsen, and A. Dittadi, “Dif- ¨ fusion models for video prediction and infilling,” arXiv preprint arXiv:2206.07696, 2022. (document), 4.1.4, 3, 9 [37] H. Chung and J. C. Ye, “Score-based diffusion models for accelerated mri,” Medical Image Analysis, p. 102479, 2022. (document), 4.1.5, 3, 9 [38] X. L. Li, J. Thickstun, I. Gulrajani, P. Liang, and T. B. Hashimoto, “Diffusion-lm improves controllable text generation,” arXiv preprint arXiv:2205.14217, 2022. (document), 4.2.1, 3, 9 [39] T. Chen, R. Zhang, and G. Hinton, “Analog bits: Generating discrete data using diffusion models with self-conditioning,” arXiv preprint arXiv:2208.04202, 2022. (document), 4.2.1, 3, 9 [40] Y. Tashiro, J. Song, Y. Song, and S. Ermon, “Csdi: Conditional score-based diffusion models for probabilistic time series imputation,” Advances in Neural Information Processing Systems, vol. 34, pp. 24 804–24 816, 2021. (document), 4.2.2, 3, 9 [41] J. M. L. Alcaraz and N. Strodthoff, “Diffusion-based time series imputation and forecasting with structured state space models,” arXiv preprint arXiv:2208.09399, 2022. (document), 4.2.2, 3, 9 [42] N. Chen, Y. Zhang, H. Zen, R. J. Weiss, M. Norouzi, and W. Chan, “Wavegrad: Estimating gradients for waveform generation,” in International Conference on Learning Representations, 2020. (document), 3, 4.3, 3, 9 [43] Z. Kong, W. Ping, J. Huang, K. Zhao, and B. Catanzaro, “Diffwave: A versatile diffusion model for audio synthesis,” in International Conference on Learning Representations, 2020. (document), 4.3, 3, 9 [44] V. Popov, I. Vovk, V. Gogoryan, T. Sadekova, and M. Kudinov, “Grad-tts: A diffusion probabilistic model for text-to-speech,” in International Conference on Machine Learning. PMLR, 2021, pp. 8599–8608. (document), 4.3, 3, 9 [45] J. Liu, C. Li, Y. Ren, F. Chen, and Z. Zhao, “Diffsinger: Singing voice synthesis via shallow diffusion mechanism,” in Proceedings of the AAAI Conference on Artificial Intelligence, vol. 36, no. 10, 2022, pp. 11 020–11 028. (document), 4.3, 3, 9 [46] J. Tae, H. Kim, and T. Kim, “Editts: Score-based editing for controllable text-to-speech,” arXiv preprint arXiv:2110.02584, 2021. (document), 3, 4.3, 9 [47] H. Kim, S. Kim, and S. Yoon, “Guided-tts: A diffusion model for text-to-speech via classifier guidance,” in International Conference on Machine Learning. PMLR, 2022, pp. 11 119–11 133. (document), 3.2, 3, 4.3, 9 [48] S. Kim, H. Kim, and S. Yoon, “Guided-tts 2: A diffusion model for high-quality adaptive text-to-speech with untranscribed data,” arXiv preprint arXiv:2205.15370, 2022. (document), 3, 4.3, 9 [49] Y. Koizumi, H. Zen, K. Yatabe, N. Chen, and M. Bacchiani, “Specgrad: Diffusion probabilistic model based neural vocoder with adaptive noise spectral shaping,” arXiv preprint arXiv:2203.16749, 2022. (document), 3, 4.3, 9 [50] Z. Kong, W. Ping, J. Huang, K. Zhao, and B. Catanzaro, “Diffwave: A versatile diffusion model for audio synthesis,” 2020. [Online]. Available: https://arxiv.org/abs/2009.09761 (document) [51] H. Kim, S. Kim, and S. Yoon, “Guided-tts: A diffusion model for text-to-speech via classifier guidance,” 2021. [Online]. Available: https://arxiv.org/abs/2111.11755 (document) [52] S. Luo, C. Shi, M. Xu, and J. Tang, “Predicting molecular conformation via dynamic graph score matching,” Advances in Neural Information Processing Systems, vol. 34, pp. 19 784–19 795, 2021. (document), 3, 4.4.1, 9 [53] M. Xu, L. Yu, Y. Song, C. Shi, S. Ermon, and J. Tang, “Geodiff: A geometric diffusion model for molecular conformation generation,” in International Conference on Learning Representations, 2021. (document), 3, 4.4.1, 9

[54] B. Jing, G. Corso, R. Barzilay, and T. S. Jaakkola, “Torsional diffusion for molecular conformer generation,” in ICLR2022 Machine Learning for Drug Discovery, 2022. (document), 3.2, 3, 4.4.1, 9 [55] S. Luo, Y. Su, X. Peng, S. Wang, J. Peng, and J. Ma, “Antigenspecific antibody design and optimization with diffusion-based generative models,” bioRxiv, 2022. (document), 3.2, 3, 4.4.2, 9 [56] N. Anand and T. Achim, “Protein structure and sequence generation with equivariant denoising diffusion probabilistic models,” arXiv preprint arXiv:2205.15019, 2022. (document), 3, 4.4.2, 9 [57] I. J. Goodfellow, J. Pouget-Abadie, M. Mirza, B. Xu, D. Warde-Farley, S. Ozair, A. Courville, and Y. Bengio, “Generative adversarial networks,” 2014. [Online]. Available: https://arxiv.org/abs/1406.2661 1 [58] I. Goodfellow, Y. Bengio, and A. Courville, Deep Learning. MIT Press, 2016, http://www.deeplearningbook.org. 1 [59] D. P. Kingma and M. Welling, “Auto-encoding variational bayes,” arXiv preprint arXiv:1312.6114, 2013. 1 [60] A. Q. Nichol and P. Dhariwal, “Improved denoising diffusion probabilistic models,” in International Conference on Machine Learning. PMLR, 2021, pp. 8162–8171. (document), 2, 3.1.1, 3.3, 3.3.1, B.3, 6, 7, 8 [61] T. Salimans and J. Ho, “Progressive distillation for fast sampling of diffusion models,” arXiv preprint arXiv:2202.00512, 2022. (document), 3, 2, 3.1.1, 7, 8 [62] Z. Xiao, K. Kreis, and A. Vahdat, “Tackling the generative learning trilemma with denoising diffusion gans,” arXiv preprint arXiv:2112.07804, 2021. (document), 2, 3.1.3, 7, 8 [63] C. Lu, Y. Zhou, F. Bao, J. Chen, C. Li, and J. Zhu, “Dpm-solver: A fast ode solver for diffusion probabilistic model sampling in around 10 steps,” 2022. [Online]. Available: https://arxiv.org/abs/2206.00927 (document), 2.2.3, 2, 3.1.2, 4, 5, 7, 8 [64] J. Austin, D. D. Johnson, J. Ho, D. Tarlow, and R. van den Berg, “Structured denoising diffusion models in discrete state-spaces,” Advances in Neural Information Processing Systems, vol. 34, pp. 17 981–17 993, 2021. (document), 2, 3.2.2, 3.3.1, 3, 6, 8, 9 [65] Y. Song, J. Sohl-Dickstein, D. P. Kingma, A. Kumar, S. Ermon, and B. Poole, “Score-based generative modeling through stochastic differential equations,” arXiv preprint arXiv:2011.13456, 2020. 2.1.3, 2.2.3, 2.2.3, 2.2.3, 2, 3.1.2, 3.1.4, 3.2.3, 6, 8 [66] D. Kingma, T. Salimans, B. Poole, and J. Ho, “Variational diffusion models,” Advances in neural information processing systems, vol. 34, pp. 21 696–21 707, 2021. 2.1.3, 2, 3.1.1, 3.1.4, 3.3.1, 6, 8 [67] J. Ho, A. Jain, and P. Abbeel, “Denoising diffusion probabilistic models,” Advances in Neural Information Processing Systems, vol. 33, pp. 6840–6851, 2020. 2.2, 2.2.1, 2.2.1, 2.2.1, 3.3, 6, 8 [68] J. Song, C. Meng, and S. Ermon, “Denoising diffusion implicit models,” in International Conference on Learning Representations, 2020. 2.2, 2, 3.1.2, 7, 8 [69] Y. Song and S. Ermon, “Generative modeling by estimating gradients of the data distribution,” Advances in Neural Information Processing Systems, vol. 32, 2019. 2.2.2, 2.3.2, 4.1.1, 4, 6, 8 [70] S. Lyu, “Interpretation and generalization of score matching,” arXiv preprint arXiv:1205.2629, 2012. 2.2.2 [71] L. Arnold, “Stochastic differential equations,” New York, 1974. 2.2.3 [72] B. Oksendal, Stochastic differential equations: an introduction with applications. Springer Science & Business Media, 2013. 2.2.3 [73] A. Hyvarinen and P. Dayan, “Estimation of non-normalized ¨ statistical models by score matching.” Journal of Machine Learning Research, vol. 6, no. 4, 2005. 2.2.3, 2.3.2 [74] D. Maoutsa, S. Reich, and M. Opper, “Interacting particle solutions of fokker–planck equations through gradient–log–density estimation,” Entropy, vol. 22, no. 8, p. 802, 2020. 2.2.3 [75] R. T. Chen, Y. Rubanova, J. Bettencourt, and D. K. Duvenaud, “Neural ordinary differential equations,” Advances in neural information processing systems, vol. 31, 2018. 2.2.3, 3.1.2, 3.1.2, 3.1.4 [76] L. Liu, Y. Ren, Z. Lin, and Z. Zhao, “Pseudo numerical methods for diffusion models on manifolds,” arXiv preprint arXiv:2202.09778, 2022. 2.2.3, 2, 3.1.2, 3.2.3, 4, 8 [77] Y. Song, S. Garg, J. Shi, and S. Ermon, “Sliced score matching: A scalable approach to density and score estimation,” in Uncertainty in Artificial Intelligence. PMLR, 2020, pp. 574–584. 2.3.2, 6 [78] R. M. Neal, “Annealed importance sampling,” Statistics and computing, vol. 11, no. 2, pp. 125–139, 2001. 2.4.1

[79] R. W. Hamming, “Stable predictor-corrector methods for ordinary differential equations,” Journal of the ACM (JACM), vol. 6, no. 1, pp. 37–47, 1959. 2.4.3 [80] J. R. Dormand and P. J. Prince, “A family of embedded rungekutta formulae,” Journal of computational and applied mathematics, vol. 6, no. 1, pp. 19–26, 1980. 2.4.3 [81] T. Sauer, Numerical analysis. Addison-Wesley Publishing Company, 2011. 2.4.3 [82] W. H. Press, S. A. Teukolsky, W. T. Vetterling, and B. P. Flannery, Numerical recipes 3rd edition: The art of scientific computing. Cambridge university press, 2007. 2.4.3 [83] C. Saharia, W. Chan, H. Chang, C. Lee, J. Ho, T. Salimans, D. Fleet, and M. Norouzi, “Palette: Image-to-image diffusion models,” in ACM SIGGRAPH 2022 Conference Proceedings, 2022, pp. 1–10. 3, 4.1.1, 3, 9 [84] E. Luhman and T. Luhman, “Knowledge distillation in iterative generative models for improved sampling speed,” arXiv preprint arXiv:2101.02388, 2021. 2, 7, 8 [85] H. Zheng, P. He, W. Chen, and M. Zhou, “Truncated diffusion probabilistic models,” arXiv preprint arXiv:2202.09671, 2022. 2, 3.1.1, 6, 7, 8 [86] Z. Lyu, X. Xu, C. Yang, D. Lin, and B. Dai, “Accelerating diffusion models via early stop of the diffusion process,” arXiv preprint arXiv:2205.12524, 2022. 2, 3.1.1, 3.1.3, 4, 5, 7, 8 [87] H. Chung, B. Sim, and J. C. Ye, “Come-closer-diffuse-faster: Accelerating conditional diffusion models for inverse problems through stochastic contraction,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2022, pp. 12 413–12 422. 2, 3.1.1, 8 [88] G. Franzese, S. Rossi, L. Yang, A. Finamore, D. Rossi, M. Filippone, and P. Michiardi, “How much is enough? a study on diffusion times in score-based generative models,” 2022. [Online]. Available: https://arxiv.org/abs/2206.05173 2, 3.1.1, 7, 8 [89] Z. Kong and W. Ping, “On fast sampling of diffusion probabilistic models,” arXiv preprint arXiv:2106.00132, 2021. 2, 3.1.1, 3.1.2, 3.1.4, 7, 8 [90] R. San-Roman, E. Nachmani, and L. Wolf, “Noise estimation for generative diffusion models,” arXiv preprint arXiv:2104.02600, 2021. 2, 8 [91] F. Bao, C. Li, J. Zhu, and B. Zhang, “Analytic-dpm: an analytic estimate of the optimal reverse variance in diffusion probabilistic models,” arXiv preprint arXiv:2201.06503, 2022. 2, 3.1.2, 4, 5, 6, 7, 8 [92] F. Bao, C. Li, J. Sun, J. Zhu, and B. Zhang, “Estimating the optimal covariance with imperfect mean in diffusion probabilistic models,” arXiv preprint arXiv:2206.07309, 2022. 2, 3.1.2, 4, 5, 6, 7, 8 [93] Q. Zhang and Y. Chen, “Fast sampling of diffusion models with exponential integrator,” arXiv preprint arXiv:2204.13902, 2022. 2, 3.1.2, 6, 7, 8 [94] Q. Zhang, M. Tao, and Y. Chen, “gddim: Generalized denoising diffusion implicit models,” arXiv preprint arXiv:2206.05564, 2022. 2, 3.1.2, 3.1.4, 7, 8 [95] D. Watson, J. Ho, M. Norouzi, and W. Chan, “Learning to efficiently sample from diffusion probabilistic models,” arXiv preprint arXiv:2106.03802, 2021. 2, 3.1.2, 3.1.4, 5, 8 [96] T. Karras, M. Aittala, T. Aila, and S. Laine, “Elucidating the design space of diffusion-based generative models,” arXiv preprint arXiv:2206.00364, 2022. 2, 3.1.2, 7, 8 [97] A. Jolicoeur-Martineau, K. Li, R. Piche-Taillefer, T. Kachman, ´ and I. Mitliagkas, “Gotta go fast when generating data with score-based models,” 2021. [Online]. Available: https: //arxiv.org/abs/2105.14080 2, 3.1.2, 6, 7 [98] D. Watson, W. Chan, J. Ho, and M. Norouzi, “Learning fast samplers for diffusion models by differentiating through sample quality.” 2, 3.1.2, 5, 7, 8 [99] K. Pandey, A. Mukherjee, P. Rai, and A. Kumar, “Diffusevae: Efficient, controllable and high-fidelity generation from lowdimensional latents,” 2022. [Online]. Available: https://arxiv. org/abs/2201.00308 2, 3.1.3, 4, 6, 7, 8 [100] Q. Zhang and Y. Chen, “Diffusion normalizing flow,” Advances in Neural Information Processing Systems, vol. 34, pp. 16 280–16 291, 2021. 2, 3.1.3, 7, 8 [101] A. Vahdat, K. Kreis, and J. Kautz, “Score-based generative modeling in latent space,” Advances in Neural Information Processing Systems, vol. 34, pp. 11 287–11 302, 2021. 2, 3.1.3, 3.4, 4.1.2, 3, 7, 8, 9

[102] Y. Song, C. Durkan, I. Murray, and S. Ermon, “Maximum likelihood training of score-based diffusion models,” Advances in Neural Information Processing Systems, vol. 34, pp. 1415–1428, 2021. 2, 3.1.3, 3.2.1, 3.3, 3.3.1, 8 [103] D. Kim, B. Na, S. J. Kwon, D. Lee, W. Kang, and I.-c. Moon, “Maximum likelihood training of parametrized diffusion model,” 2021. 2, 3.1.3, 3.3.2, 3.4, 8 [104] D. Kim, B. Na, S. J. Kwon, D. Lee, W. Kang, and I.-C. Moon, “Maximum likelihood training of implicit nonlinear diffusion models,” arXiv preprint arXiv:2205.13699, 2022. 2, 3.4, 6, 8 [105] R. Gao, Y. Song, B. Poole, Y. N. Wu, and D. P. Kingma, “Learning energy-based models by diffusion recovery likelihood,” arXiv preprint arXiv:2012.08125, 2020. 2, 3.1.3, 8 [106] Y. Song and D. P. Kingma, “How to train your energy-based models,” 2021. [Online]. Available: https://arxiv.org/abs/2101. 03288 2, 8 [107] A. Bansal, E. Borgnia, H.-M. Chu, J. S. Li, H. Kazemi, F. Huang, M. Goldblum, J. Geiping, and T. Goldstein, “Cold diffusion: Inverting arbitrary image transforms without noise,” arXiv preprint arXiv:2208.09392, 2022. 2, 3.1.4, 3.2.1 [108] W. Gong and Y. Li, “Interpreting diffusion score matching using normalizing flow,” 2021. [Online]. Available: https: //arxiv.org/abs/2107.10072 2, 3.1.4 [109] V. De Bortoli, A. Doucet, J. Heng, and J. Thornton, “Simulating diffusion bridges with score matching,” 2021. [Online]. Available: https://arxiv.org/abs/2111.07243 2, 3.1.4, 8 [110] C.-W. Huang, J. H. Lim, and A. C. Courville, “A variational perspective on diffusion-based generative models and score matching,” Advances in Neural Information Processing Systems, vol. 34, pp. 22 863–22 876, 2021. 2, 3.1.4, 3.3.1, 8 [111] L. Zhou, Y. Du, and J. Wu, “3d shape generation and completion through point-voxel diffusion,” in Proceedings of the IEEE/CVF International Conference on Computer Vision (ICCV), October 2021, pp. 5826–5835. 2, 3.2.1, 8 [112] A.-C. Cheng, X. Li, S. Liu, M. Sun, and M.-H. Yang, “Autoregressive 3d shape generation via canonical mapping,” 2022. [Online]. Available: https://arxiv.org/abs/2204.01955 2, 3.2.1, 3, 9 [113] E. Hoogeboom, D. Nielsen, P. Jaini, P. Forre, and M. Welling, ´ “Argmax flows and multinomial diffusion: Towards nonautoregressive language models,” 2021. 2, 3.2.2, 3, 8, 9 [114] E. Hoogeboom, A. A. Gritsenko, J. Bastings, B. Poole, R. v. d. Berg, and T. Salimans, “Autoregressive diffusion models,” arXiv preprint arXiv:2110.02037, 2021. 2, 3.2.2, 8 [115] A. Campbell, J. Benton, V. De Bortoli, T. Rainforth, G. Deligiannidis, and A. Doucet, “A continuous time framework for discrete denoising models,” arXiv preprint arXiv:2205.14987, 2022. 2, 8 [116] S. Gu, D. Chen, J. Bao, F. Wen, B. Zhang, D. Chen, L. Yuan, and B. Guo, “Vector quantized diffusion model for text-to-image synthesis,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2022, pp. 10 696–10 706. 2, 3.2.2, 8, 9 [117] Z. Tang, S. Gu, J. Bao, D. Chen, and F. Wen, “Improved vector quantized diffusion models,” arXiv preprint arXiv:2205.16007, 2022. 2, 3.2.2, 3, 8, 9 [118] M. Cohen, G. Quispe, S. L. Corff, C. Ollion, and E. Moulines, “Diffusion bridges vector quantized variational autoencoders,” 2022. [Online]. Available: https://arxiv.org/abs/2202.04895 2, 3.2.2, 8 [119] P. Xie, Q. Zhang, Z. Li, H. Tang, Y. Du, and X. Hu, “Vector quantized diffusion model with codeunet for textto-sign pose sequences generation,” 2022. [Online]. Available: https://arxiv.org/abs/2208.09141 2, 3.2.2, 3, 8, 9 [120] V. De Bortoli, E. Mathieu, M. Hutchinson, J. Thornton, Y. W. Teh, and A. Doucet, “Riemannian score-based generative modeling,” arXiv preprint arXiv:2202.02763, 2022. 2, 3.2.3, 8 [121] C.-W. Huang, M. Aghajohari, A. J. Bose, P. Panangaden, and A. Courville, “Riemannian diffusion models,” arXiv preprint arXiv:2208.07949, 2022. 2, 3.2.3, 8 [122] C. Niu, Y. Song, J. Song, S. Zhao, A. Grover, and S. Ermon, “Permutation invariant graph generation via score-based generative modeling,” in International Conference on Artificial Intelligence and Statistics. PMLR, 2020, pp. 4474–4484. 2, 3.2.3, 8 [123] D. Kim, S. Shin, K. Song, W. Kang, and I.-C. Moon, “Soft truncation: A universal training technique of score-based diffusion model for high precision score estimation,” 2021. [Online]. Available: https://arxiv.org/abs/2106.05527 2, 3.3.1, 4, 6, 8 [124] R. G. Lopes, S. Fenu, and T. Starner, “Data-free knowledge distillation for deep neural networks,” arXiv preprint arXiv:1710.07535, 2017. 3.1.1 [125] J. Gou, B. Yu, S. J. Maybank, and D. Tao, “Knowledge distillation: A survey,” International Journal of Computer Vision, vol. 129, no. 6, pp. 1789–1819, 2021. 3.1.1 [126] T. Choudhary, V. Mishra, A. Goswami, and J. Sarangapani, “A comprehensive survey on model compression and acceleration,” Artificial Intelligence Review, vol. 53, no. 7, pp. 5113–5155, 2020. 3.1.1 [127] Y. Cheng, D. Wang, P. Zhou, and T. Zhang, “A survey of model compression and acceleration for deep neural networks,” arXiv preprint arXiv:1710.09282, 2017. 3.1.1 [128] A. Polino, R. Pascanu, and D. Alistarh, “Model compression via distillation and quantization,” arXiv preprint arXiv:1802.05668, 2018. 3.1.1 [129] S. Sun, Y. Cheng, Z. Gan, and J. Liu, “Patient knowledge distillation for bert model compression,” in Proceedings of the 2019 Conference on Empirical Methods in Natural Language Processing and the 9th International Joint Conference on Natural Language Processing (EMNLP-IJCNLP), 2019, pp. 4323–4332. 3.1.1 [130] R. Huang, Z. Zhao, H. Liu, J. Liu, C. Cui, and Y. Ren, “Prodiff: Progressive fast diffusion model for high-quality text-to-speech,” 2022. [Online]. Available: https://arxiv.org/abs/2207.06389 3.1.1 [131] H. Tsukamoto, S.-J. Chung, and J.-J. E. Slotine, “Contraction theory for nonlinear stability analysis and learning-based control: A tutorial overview,” Annual Reviews in Control, vol. 52, pp. 135– 169, 2021. 3.1.1 [132] N. V. Hung, S. Migorski, V. M. Tam, and S. Zeng, “Gap functions ´ and error bounds for variational–hemivariational inequalities,” Acta Applicandae Mathematicae, vol. 169, no. 1, pp. 691–709, 2020. 3.1.1 [133] H. Zheng and M. Zhou, “Act: Asymptotic conditional transport,” 2020. 3.1.1 [134] S. Mohamed and B. Lakshminarayanan, “Learning in implicit generative models,” Learning, no. 1/14, 2018. 3.1.2 [135] W. Grathwohl, R. T. Chen, J. Bettencourt, I. Sutskever, and D. Duvenaud, “Ffjord: Free-form continuous dynamics for scalable reversible generative models,” arXiv preprint arXiv:1810.01367, 2018. 3.1.2, 3.1.4 [136] Q. Han and S. Ji, “Novel multi-step predictor-corrector schemes for backward stochastic differential equations,” 2021. [Online]. Available: https://arxiv.org/abs/2102.05915 3.1.2 [137] T. Dockhorn, A. Vahdat, and K. Kreis, “Score-based generative modeling with critically-damped langevin diffusion,” arXiv preprint arXiv:2112.07068, 2021. 3.1.2 [138] M. Bayram, T. Partal, and G. Orucova Buyukoz, “Numerical methods for simulation of stochastic differential equations,” Advances in Difference Equations, vol. 2018, no. 1, pp. 1–10, 2018. 3.1.2 [139] V. F. Zaitsev and A. D. Polyanin, Handbook of exact solutions for ordinary differential equations. CRC press, 2002. 3.1.2 [140] E. Platen and N. Bruti-Liberati, Numerical solution of stochastic differential equations with jumps in finance. Springer Science & Business Media, 2010, vol. 64. 3.1.2 [141] E. Suli and D. F. Mayers, ¨ An introduction to numerical analysis. Cambridge university press, 2003. 3.1.2 [142] F. Rabiei, F. Ismail, and M. Suleiman, “Improved runge-kutta methods for solving ordinary differential equations,” Sains Malaysiana, vol. 42, no. 11, pp. 1679–1687, 2013. 3.1.2 [143] C. W. Gear and D. R. Wells, “Multirate linear multistep methods,” BIT Numerical Mathematics, vol. 24, no. 4, pp. 484–502, 1984. 3.1.2 [144] L. F. Shampine, Numerical solution of ordinary differential equations. Routledge, 2018. 3.1.2 [145] M. Hochbruck and A. Ostermann, “Exponential integrators,” Acta Numerica, vol. 19, pp. 209–286, 2010. 3.1.2 [146] T. H. Cormen, C. E. Leiserson, R. L. Rivest, and C. Stein, Introduction to algorithms. MIT press, 2022. 3.1.2 [147] R. Bellman, “The theory of dynamic programming,” Bulletin of the American Mathematical Society, vol. 60, no. 6, pp. 503–515, 1954. 3.1.2 [148] ——, “Dynamic programming,” Science, vol. 153, no. 3731, pp. 34–37, 1966. 3.1.2 [149] R. E. Bellman and S. E. Dreyfus, Applied dynamic programming. Princeton university press, 2015, vol. 2050. 3.1.2

[150] D. Watson, W. Chan, J. Ho, and M. Norouzi, “Learning fast samplers for diffusion models by differentiating through sample quality,” in International Conference on Learning Representations, 2021. 3.1.2 [151] R. Kumar, M. Purohit, Z. Svitkina, E. Vee, and J. Wang, “Efficient rematerialization for deep networks,” Advances in Neural Information Processing Systems, vol. 32, 2019. 3.1.2 [152] R. Gao, X. Hou, J. Qin, J. Chen, L. Liu, F. Zhu, Z. Zhang, and L. Shao, “Zero-vae-gan: Generating unseen features for generalized and transductive zero-shot learning,” IEEE Transactions on Image Processing, vol. 29, pp. 3665–3680, 2020. 3.1.3 [153] Z. Niu, K. Yu, and X. Wu, “Lstm-based vae-gan for time-series anomaly detection,” Sensors, vol. 20, no. 13, p. 3738, 2020. 3.1.3 [154] A. Grover, M. Dhar, and S. Ermon, “Flow-gan: Combining maximum likelihood and adversarial learning in generative models,” in Proceedings of the AAAI conference on artificial intelligence, vol. 32, no. 1, 2018. 3.1.3 [155] C. Ma and X. Zhang, “Gf-vae: A flow-based variational autoencoder for molecule generation,” in Proceedings of the 30th ACM International Conference on Information & Knowledge Management, 2021, pp. 1181–1190. 3.1.3 [156] Z. Xiao, Q. Yan, and Y. Amit, “Generative latent flow,” arXiv preprint arXiv:1905.10485, 2019. 3.1.3 [157] T. Han, E. Nijkamp, L. Zhou, B. Pang, S.-C. Zhu, and Y. N. Wu, “Joint training of variational auto-encoder and latent energybased model,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2020, pp. 7978–7987. 3.1.3 [158] B. Pang, T. Han, E. Nijkamp, S.-C. Zhu, and Y. N. Wu, “Learning latent space energy-based prior model,” Advances in Neural Information Processing Systems, vol. 33, pp. 21 994–22 008, 2020. 3.1.3 [159] J. Ho, X. Chen, A. Srinivas, Y. Duan, and P. Abbeel, “Flow++: Improving flow-based generative models with variational dequantization and architecture design,” in Proceedings of the 36th International Conference on Machine Learning, ser. Proceedings of Machine Learning Research, K. Chaudhuri and R. Salakhutdinov, Eds., vol. 97. PMLR, 09–15 Jun 2019, pp. 2722–2730. [Online]. Available: https://proceedings.mlr.press/v97/ho19a.html 3.1.3, 3.2.1 [160] E. Hoogeboom, T. S. Cohen, and J. M. Tomczak, “Learning discrete distributions by dequantization,” arXiv preprint arXiv:2001.11235, 2020. 3.1.3, 3.2.1 [161] T. Che, R. Zhang, J. Sohl-Dickstein, H. Larochelle, L. Paull, Y. Cao, and Y. Bengio, “Your gan is secretly an energy-based model and you should use discriminator driven latent sampling,” in Proceedings of the 34th International Conference on Neural Information Processing Systems, ser. NIPS’20. Red Hook, NY, USA: Curran Associates Inc., 2020. 3.1.3 [162] G. Desjardins, Y. Bengio, and A. C. Courville, “On tracking the partition function,” in Advances in Neural Information Processing Systems, J. Shawe-Taylor, R. Zemel, P. Bartlett, F. Pereira, and K. Weinberger, Eds., vol. 24. Curran Associates, Inc., 2011. [Online]. Available: https://proceedings.neurips.cc/paper/ 2011/file/861dc9bd7f4e7dd3cccd534d0ae2a2e9-Paper.pdf 3.1.3 [163] J. Lazarow, L. Jin, and Z. Tu, “Introspective neural networks for generative modeling,” in Proceedings of the IEEE International Conference on Computer Vision, 2017, pp. 2774–2783. 3.1.3 [164] K. Lee, W. Xu, F. Fan, and Z. Tu, “Wasserstein introspective neural networks,” in Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, 2018, pp. 3702–3711. 3.1.3 [165] L. Alili, P. Graczyk, and T. Zak, “On inversions and doob htransforms of linear diffusions,” Lecture Notes in Mathematics, vol. 2137, 09 2012. 3.1.4 [166] B. Uria, I. Murray, and H. Larochelle, “Rnade: The real-valued neural autoregressive density-estimator,” Advances in Neural Information Processing Systems, vol. 26, 2013. 3.2.1 [167] F. Pomerleau, F. Colas, R. Siegwart et al., “A review of point cloud registration algorithms for mobile robotics,” Foundations and Trends® in Robotics, vol. 4, no. 1, pp. 1–104, 2015. 3.2.1 [168] A. Nguyen and B. Le, “3d point cloud segmentation: A survey,” in 2013 6th IEEE conference on robotics, automation and mechatronics (RAM). IEEE, 2013, pp. 225–230. 3.2.1 [169] A. Vaswani, N. Shazeer, N. Parmar, J. Uszkoreit, L. Jones, A. N. Gomez, Ł. Kaiser, and I. Polosukhin, “Attention is all you need,” Advances in neural information processing systems, vol. 30, 2017. 3.2.2 [170] J. Devlin, M.-W. Chang, K. Lee, and K. Toutanova, “Bert: Pretraining of deep bidirectional transformers for language understanding,” arXiv preprint arXiv:1810.04805, 2018. 3.2.2 [171] A. Nichol, P. Dhariwal, A. Ramesh, P. Shyam, P. Mishkin, B. McGrew, I. Sutskever, and M. Chen, “Glide: Towards photorealistic image generation and editing with text-guided diffusion models,” arXiv preprint arXiv:2112.10741, 2021. 3.2.2, 4.1.2, 3, 9 [172] A. Ramesh, P. Dhariwal, A. Nichol, C. Chu, and M. Chen, “Hierarchical text-conditional image generation with clip latents,” arXiv preprint arXiv:2204.06125, 2022. 3.2.2 [173] J. Jumper, R. Evans, A. Pritzel, T. Green, M. Figurnov, O. Ronneberger, K. Tunyasuvunakool, R. Bates, A. Zˇ´ıdek, A. Potapenko et al., “Highly accurate protein structure prediction with alphafold,” Nature, vol. 596, no. 7873, pp. 583–589, 2021. 3.2.2 [174] S. Ovchinnikov and P.-S. Huang, “Structure-based protein design with deep learning,” Current opinion in chemical biology, vol. 65, pp. 136–144, 2021. 3.2.2 [175] A. Van Den Oord, O. Vinyals et al., “Neural discrete representation learning,” Advances in neural information processing systems, vol. 30, 2017. 3.2.2, 3.3 [176] W. Fan, Y. Ma, Q. Li, Y. He, E. Zhao, J. Tang, and D. Yin, “Graph neural networks for social recommendation,” in The world wide web conference, 2019, pp. 417–426. 3.2.3 [177] C. Huang, H. Xu, Y. Xu, P. Dai, L. Xia, M. Lu, L. Bo, H. Xing, X. Lai, and Y. Ye, “Knowledge-aware coupled graph neural network for social recommendation,” in Proceedings of the AAAI Conference on Artificial Intelligence, vol. 35, no. 5, 2021, pp. 4115– 4122. 3.2.3 [178] B. Jing, S. Eismann, P. Suriana, R. J. L. Townshend, and R. Dror, “Learning from protein structure with geometric vector perceptrons,” in International Conference on Learning Representations, 2020. 3.2.3 [179] V. G. Satorras, E. Hoogeboom, and M. Welling, “E (n) equivariant graph neural networks,” in International conference on machine learning. PMLR, 2021, pp. 9323–9332. 3.2.3 [180] H. Lin, Z. Gao, Y. Xu, L. Wu, L. Li, and S. Z. Li, “Conditional local convolution for spatio-temporal meteorological forecasting,” in Proceedings of the AAAI Conference on Artificial Intelligence, vol. 36, no. 7, 2022, pp. 7470–7478. 3.2.3 [181] B. Yu, H. Yin, and Z. Zhu, “Spatio-temporal graph convolutional networks: A deep learning framework for traffic forecasting,” arXiv preprint arXiv:1709.04875, 2017. 3.2.3 [182] H. A. Pierson and M. S. Gashler, “Deep learning in robotics: a review of recent research,” Advanced Robotics, vol. 31, no. 16, pp. 821–835, 2017. 3.2.3 [183] R. P. De Lima, K. Marfurt, D. Duarte, and A. Bonar, “Progress and challenges in deep learning analysis of geoscience images,” in 81st EAGE Conference and Exhibition 2019, vol. 2019, no. 1. European Association of Geoscientists & Engineers, 2019, pp. 1–5. 3.2.3 [184] J. Wang, H. Cao, J. Z. Zhang, and Y. Qi, “Computational protein design with deep learning neural networks,” Scientific reports, vol. 8, no. 1, pp. 1–9, 2018. 3.2.3 [185] W. Cao, Z. Yan, Z. He, and Z. He, “A comprehensive survey on geometric deep learning,” IEEE Access, vol. 8, pp. 35 929–35 949, 2020. 3.2.3 [186] G. Wanner and E. Hairer, Solving ordinary differential equations II. Springer Berlin Heidelberg New York, 1996, vol. 375. 3.2.3 [187] L. Wu, H. Lin, Z. Gao, C. Tan, and S. Z. Li, “Self-supervised on graphs: Contrastive, generative, or predictive,” 2021. 3.2.3 [188] I. Higgins, L. Matthey, A. Pal, C. Burgess, X. Glorot, M. Botvinick, S. Mohamed, and A. Lerchner, “beta-vae: Learning basic visual concepts with a constrained variational framework,” 2016. 3.3 [189] F. Vargas, P. Thodoroff, A. Lamacraft, and N. Lawrence, “Solving schrodinger bridges via maximum likelihood,” ¨ Entropy, vol. 23, no. 9, p. 1134, 2021. 3.3.1 [190] V. De Bortoli, J. Thornton, J. Heng, and A. Doucet, “Diffusion schrodinger bridge with applications to score-based generative ¨ modeling,” Advances in Neural Information Processing Systems, vol. 34, pp. 17 695–17 709, 2021. 3.3.1 [191] C. Cremer, X. Li, and D. Duvenaud, “Inference suboptimality in variational autoencoders,” in International Conference on Machine Learning. PMLR, 2018, pp. 1078–1086. 3.3.2 [192] B. Kawar, M. Elad, S. Ermon, and J. Song, “Denoising diffusion restoration models,” in ICLR Workshop on Deep Generative Models for Highly Structured Data, 2022. 4.1.1, 3, 9

[193] L. Theis, T. Salimans, M. D. Hoffman, and F. Mentzer, “Lossy compression with gaussian diffusion,” arXiv preprint arXiv:2206.08889, 2022. 4.1.1, 3, 9 [194] A. Lugmayr, M. Danelljan, A. Romero, F. Yu, R. Timofte, and L. Van Gool, “Repaint: Inpainting using denoising diffusion probabilistic models,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, 2022, pp. 11 461–11 471. 4.1.1, 3, 9 [195] A. Radford, J. W. Kim, C. Hallacy, A. Ramesh, G. Goh, S. Agarwal, G. Sastry, A. Askell, P. Mishkin, J. Clark et al., “Learning transferable visual models from natural language supervision,” in International Conference on Machine Learning. PMLR, 2021, pp. 8748–8763. 4.1.2, 6 [196] B. Poole, A. Jain, J. T. Barron, and B. Mildenhall, “Dreamfusion: Text-to-3d using 2d diffusion,” arXiv preprint arXiv:2209.14988, 2022. 4.1.2, 3, 9 [197] T. Amit, E. Nachmani, T. Shaharbany, and L. Wolf, “Segdiff: Image segmentation with diffusion probabilistic models,” arXiv preprint arXiv:2112.00390, 2021. 4.1.2, 3, 9 [198] J. Ho, T. Salimans, A. A. Gritsenko, W. Chan, M. Norouzi, and D. J. Fleet, “Video diffusion models,” in ICLR Workshop on Deep Generative Models for Highly Structured Data, 2022. 4.1.2, 4.1.4, 3, 9 [199] A. Krizhevsky, I. Sutskever, and G. E. Hinton, “Imagenet classification with deep convolutional neural networks,” Communications of the ACM, vol. 60, no. 6, pp. 84–90, 2017. C [200] T.-Y. Lin, M. Maire, S. Belongie, J. Hays, P. Perona, D. Ramanan, P. Dollar, and C. L. Zitnick, “Microsoft coco: Common objects ´ in context,” in European conference on computer vision. Springer, 2014, pp. 740–755. 4.1.2 [201] P. Sanchez and S. A. Tsaftaris, “Diffusion causal models for counterfactual estimation,” in First Conference on Causal Learning and Reasoning, 2021. 4.1.2 [202] L. Zhou, Y. Du, and J. Wu, “3d shape generation and completion through point-voxel diffusion,” in Proceedings of the IEEE/CVF International Conference on Computer Vision, 2021, pp. 5826–5835. 4.1.3, 3, 9 [203] R. Yang, P. Srivastava, and S. Mandt, “Diffusion probabilistic modeling for video generation,” arXiv preprint arXiv:2203.09481, 2022. 4.1.4, 3, 9 [204] W. Harvey, S. Naderiparizi, V. Masrani, C. Weilbach, and F. Wood, “Flexible diffusion modeling of long videos,” arXiv preprint arXiv:2205.11495, 2022. 4.1.4, 3, 9 [205] Y. Song, L. Shen, L. Xing, and S. Ermon, “Solving inverse problems in medical imaging with score-based generative models,” in International Conference on Learning Representations, 2021. 4.1.5, 3, 9 [206] H. Chung, E. S. Lee, and J. C. Ye, “Mr image denoising and superresolution using regularized reverse diffusion,” arXiv preprint arXiv:2203.12621, 2022. 4.1.5, 3, 9 [207] P. Sanchez, A. Kascenas, X. Liu, A. Q. O’Neil, and S. A. Tsaftaris, “What is healthy? generative counterfactual diffusion for lesion localization,” arXiv preprint arXiv:2207.12268, 2022. 4.1.5 [208] S. W. Park, K. Lee, and J. Kwon, “Neural markov controlled sde: Stochastic optimization for continuous-time data,” in International Conference on Learning Representations, 2021. 4.2.2, 3, 9 [209] M. Jeong, H. Kim, S. J. Cheon, B. J. Choi, and N. S. Kim, “DiffTTS: A Denoising Diffusion Model for Text-to-Speech,” in Proc. Interspeech 2021, 2021, pp. 3605–3609. 4.3, 3, 9 [210] V. Popov, I. Vovk, V. Gogoryan, T. Sadekova, M. S. Kudinov, and J. Wei, “Diffusion-based voice conversion with fast maximum likelihood sampling scheme,” in International Conference on Learning Representations, 2021. 4.3, 3, 9 [211] D. Yang, J. Yu, H. Wang, W. Wang, C. Weng, Y. Zou, and D. Yu, “Diffsound: Discrete diffusion model for text-to-sound generation,” arXiv preprint arXiv:2207.09983, 2022. 3, 4.3, 9 [212] S. Liu, Y. Cao, D. Su, and H. Meng, “Diffsvc: A diffusion probabilistic model for singing voice conversion,” in 2021 IEEE Automatic Speech Recognition and Understanding Workshop (ASRU). IEEE, 2021, pp. 741–748. 3, 9 [213] A. Levkovitch, E. Nachmani, and L. Wolf, “Zero-shot voice conditioning for denoising diffusion tts models,” arXiv preprint arXiv:2206.02246, 2022. 3, 4.3, 9 [214] Y. Leng, Z. Chen, J. Guo, H. Liu, J. Chen, X. Tan, D. Mandic, L. He, X.-Y. Li, T. Qin et al., “Binauralgrad: A two-stage conditional diffusion probabilistic model for binaural audio synthesis,” arXiv preprint arXiv:2205.14807, 2022. 3, 4.3, 9 [215] C. Shi, S. Luo, M. Xu, and J. Tang, “Learning gradient fields for molecular conformation generation,” in International Conference on Machine Learning. PMLR, 2021, pp. 9558–9568. 3, 4.4.1, 9 [216] G. Corso, H. Stark, B. Jing, R. Barzilay, and T. Jaakkola, “Diffdock: ¨ Diffusion steps, twists, and turns for molecular docking,” arXiv preprint arXiv:2210.01776, 2022. 3, 4.4.1, 9 [217] T. Xie, X. Fu, O.-E. Ganea, R. Barzilay, and T. S. Jaakkola, “Crystal diffusion variational autoencoder for periodic material generation,” in International Conference on Learning Representations, 2021. 3, 4.4.2, 9 [218] J. S. Lee and P. M. Kim, “Proteinsgm: Score-based generative modeling for de novo protein design,” bioRxiv, 2022. 3, 4.4.2, 9 [219] K. E. Wu, K. K. Yang, R. v. d. Berg, J. Y. Zou, A. X. Lu, and A. P. Amini, “Protein structure generation via folding diffusion,” arXiv preprint arXiv:2209.15611, 2022. 3, 4.4.2, 9 [220] Z. Chen, X. Tan, K. Wang, S. Pan, D. Mandic, L. He, and S. Zhao, “Infergrad: Improving diffusion models for vocoder by considering inference in training,” in ICASSP 2022-2022 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2022, pp. 8432–8436. 4.3 [221] W. Jin, J. Wohlwend, R. Barzilay, and T. S. Jaakkola, “Iterative refinement graph neural network for antibody sequence-structure co-design,” in International Conference on Learning Representations, 2021. 4.4.2 [222] T. Fu and J. Sun, “Antibody complementarity determining regions (cdrs) design using constrained energy model,” in Proceedings of the 28th ACM SIGKDD Conference on Knowledge Discovery and Data Mining, 2022, pp. 389–399. 4.4.2 [223] W. Jin, R. Barzilay, and T. Jaakkola, “Antibody-antigen docking and design via hierarchical structure refinement,” in International Conference on Machine Learning. PMLR, 2022, pp. 10 217–10 227. 4.4.2 [224] A. Borji, “Pros and cons of gan evaluation measures: New developments,” Computer Vision and Image Understanding, vol. 215, p. 103329, 2022. B.1 [225] T. Salimans, I. Goodfellow, W. Zaremba, V. Cheung, A. Radford, and X. Chen, “Improved techniques for training gans,” Advances in neural information processing systems, vol. 29, 2016. B.1 [226] S. Kullback, Information theory and statistics. Courier Corporation, 1997. B.1 [227] M. Heusel, H. Ramsauer, T. Unterthiner, B. Nessler, and S. Hochreiter, “Gans trained by a two time-scale update rule converge to a local nash equilibrium,” in Advances in Neural Information Processing Systems, I. Guyon, U. V. Luxburg, S. Bengio, H. Wallach, R. Fergus, S. Vishwanathan, and R. Garnett, Eds., vol. 30. Curran Associates, Inc., 2017. [Online]. Available: https://proceedings.neurips.cc/paper/ 2017/file/8a1d694707eb0fefe65871369074926d-Paper.pdf B.2 [228] A. Razavi, A. Van den Oord, and O. Vinyals, “Generating diverse high-fidelity images with vq-vae-2,” Advances in neural information processing systems, vol. 32, 2019. B.3 [229] T. M. Nguyen, A. Garg, R. G. Baraniuk, and A. Anandkumar, “Infocnf: Efficient conditional continuous normalizing flow using adaptive solvers,” 2019. B.3 [230] Z. Ziegler and A. Rush, “Latent normalizing flows for discrete sequences,” in International Conference on Machine Learning. PMLR, 2019, pp. 7673–7682. B.3 [231] J. Tomczak and M. Welling, “Vae with a vampprior,” in International Conference on Artificial Intelligence and Statistics. PMLR, 2018, pp. 1214–1223. B.3 [232] O. Rybkin, K. Daniilidis, and S. Levine, “Simple and effective vae training with calibrated decoders,” in International Conference on Machine Learning. PMLR, 2021, pp. 9179–9189. B.3 [233] A. Krizhevsky, G. Hinton et al., “Learning multiple layers of features from tiny images,” 2009. C [234] Z. Liu, P. Luo, X. Wang, and X. Tang, “Deep learning face attributes in the wild,” in Proceedings of International Conference on Computer Vision (ICCV), December 2015. C [235] F. Yu, A. Seff, Y. Zhang, S. Song, T. Funkhouser, and J. Xiao, “Lsun: Construction of a large-scale image dataset using deep learning with humans in the loop,” arXiv preprint arXiv:1506.03365, 2015. C [236] T. Karras, S. Laine, and T. Aila, “A style-based generator architecture for generative adversarial networks,” in Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR), June 2019. C

[237] Y. LeCun and C. Cortes, “MNIST handwritten digit database,” 2010. [Online]. Available: http://yann.lecun.com/exdb/mnist/ C [238] H. Chung, B. Sim, D. Ryu, and J. C. Ye, “Improving diffusion models for inverse problems using manifold constraints,” arXiv preprint arXiv:2206.00941, 2022. 5 [239] Y. Song and S. Ermon, “Improved techniques for training scorebased generative models,” Advances in neural information processing systems, vol. 33, pp. 12 438–12 448, 2020. 6, 8