VFC算法详解3

Posted on 2026-05-20 In Tech , Vision Views: Disqus:

贝叶斯最大后验估计(MAP)

一、公式原文与符号统一定义

1. 公式(6)原文

\[ E(\theta)=-ln p(f)-\sum_{n=1}^{N} ln \sum_{z_{n}} p\left(y_{n}, z_{n} | x_{n}, \theta\right) \tag{6} \]

2. 符号统一定义（与论文完全一致，含工程物理意义）

符号	数学定义	工程物理意义（2D点匹配场景）
\(\theta\)	待估参数集 \(\{f, \sigma^2, \gamma\}\)	模型核心参数： 1. \(f\)：待估计的向量场函数（输入特征点坐标，输出位移向量） 2. \(\sigma^2\)：内点位移的高斯噪声方差 3. \(\gamma\)：匹配对为内点的先验概率
\(E(\theta)\)	能量函数	等价于参数的负对数后验概率，最小化该函数等价于最大化参数的后验概率
\(p(f)\)	向量场\(f\)的先验概率分布	公式(5)定义的平滑先验，约束向量场必须平滑，避免过拟合与外点干扰
\(N\)	候选匹配对总数	输入的特征点匹配对总数量
\(x_n\)	第\(n\)个输入点，\(\in \mathbb{R}^P\)	第一张图像中第\(n\)个特征点的坐标（2D场景\(P=2\)，\(x_n=[u,v]^T\)像素坐标）
\(y_n\)	第\(n\)个输出向量，\(\in \mathbb{R}^D\)	第\(n\)个匹配对的位移向量（第二张图相对第一张图的坐标偏移，2D场景\(D=2\)）
\(X\)	所有输入点集合 \(\{x_n\}_{n=1}^N\)	第一张图的全部特征点坐标（固定观测输入）
\(Y\)	所有输出向量集合 \(\{y_n\}_{n=1}^N\)	全部匹配对的位移向量（固定观测数据）
\(z_n\)	二值隐变量 \(\in\{0,1\}\)	匹配对类型标记：\(z_n=1\)为内点（符合向量场），\(z_n=0\)为外点（随机噪声）
\(p(y_n,z_n\\|x_n,\theta)\)	单样本联合条件概率	给定输入\(x_n\)和参数\(\theta\)时，第\(n\)个样本与隐变量的联合概率（公式4的核心单元）
\(\lambda\)	正则化系数	平衡「数据拟合精度」与「向量场平滑度」的超参数
\(\phi(f)\)	平滑度泛函	等价于向量场在RKHS空间的范数平方\(\\|f\\|_{\mathcal{H}}^2\)，量化向量场的不平滑程度

二、核心前置知识与建模假设

2.1 核心目标：贝叶斯最大后验估计（MAP）

我们的最终目标是：找到一组参数\(\theta\)，使其在给定观测数据\(X,Y\)时的后验概率最大，即找到最能解释观测数据、同时符合平滑先验的模型参数，数学表达为：

\[ \theta^* = \arg\max_{\theta} \ p(\theta | X, Y) \]

工程意义：在点匹配场景中，就是找到既贴合有效匹配对、又足够平滑的向量场，同时自动区分内点与外点，实现鲁棒匹配。

2.2 条件概率、联合概率与贝叶斯定理（核心公式推导基础）

2.2.1 基础概念区分（解决\(p(Y|X)\)与\(p(X,Y)\)的混淆）

概率类型	公式定义	直白含义	核心区别
联合概率	\(p(X,Y)\)	\(X\)并且\(Y\)同时发生的概率	描述两个事件同时出现的总概率
条件概率	\(p(Y\\|X) = \frac{p(X,Y)}{p(X)}\)	已经确定\(X\)发生的前提下，\(Y\)发生的概率	以\(X\)为前提的概率，仅当\(p(X)=1\)（\(X\)必然发生）时，\(p(Y\\|X)=p(X,Y)\)

2.2.2 联合概率链式法则

任意多变量的联合概率，均可拆解为条件概率的乘积，即：

\[ p(A,B,C) = p(A|B,C) \cdot p(B|C) \cdot p(C) \]

基于此，可直接推导出你之前验证的正确等式：

\[ p(\theta, X, Y) = p(Y | X, \theta) \cdot p(X, \theta) = p(\theta | X, Y) \cdot p(X, Y) \]

该等式是贝叶斯定理的直接来源，完全符合概率论基本规则。

2.2.3 贝叶斯定理完整推导

从链式法则的等式出发，将\(p(X,Y)\)移至等式左侧，得到贝叶斯定理的完整形式：

\[ p(\theta | X, Y) = \frac{p(Y | X, \theta) \cdot p(X, \theta)}{p(X, Y)} \]

结合条件概率定义\(p(X,\theta)=p(\theta|X)\cdot p(X)\)、\(p(X,Y)=p(Y|X)\cdot p(X)\)，代入后约去与\(\theta\)无关的\(p(X)\)，最终得到论文中使用的贝叶斯公式：

\[ \boldsymbol{p(\theta | X, Y) = \frac{p(Y | X, \theta) \cdot p(\theta | X)}{p(Y | X)}} \]

2.3 关键建模假设：\(X\)与\(\theta\)的先验独立性

论文中使用的简化\(p(\theta|X)=p(\theta)\)，不是指最终求解的参数与输入无关，而是指先验分布的独立性，两者完全不矛盾，详细说明如下： ##### 2.3.1 先验独立的定义 \[ p(\theta|X) = p(\theta) \] 人话翻译：在未观测到匹配结果\(Y\)、仅看到输入特征点坐标\(X\)时，我们对模型参数\(\theta\)的初始预设（先验）不会发生任何改变。 ##### 2.3.2 合理性说明 - 我们对参数的核心先验是「向量场必须平滑」，这个规则是算法的固有约束，不会因为输入的特征点坐标变化而改变； - \(X\)是固定的输入坐标，仅提供位置信息，不会改变模型本身的先验规则； - 这是贝叶斯建模中对固定输入的标准简化假设，完全符合工程逻辑。 ##### 2.3.3 与「求解结果依赖输入」的区别 | 维度 | 结论 | 说明 | |------|------|------| | 先验建模层面 | \(\theta\)的先验与\(X\)无关 | 初始规则不随输入改变，用于公式推导简化 | | 最优求解层面 | 最终参数\(\theta^*\)与\(X\)强相关 | \(\theta^* = \arg\max p(\theta\|X,Y)\)，必须基于输入\(X\)和观测\(Y\)求解，完全符合你的认知 |

2.4 向量场先验\(p(f)\)的设计原理（解决先验形式的疑问）

论文中公式(5)定义的先验为：

\[ p(f) \propto e^{-\frac{\lambda}{2} \phi(f)}, \quad \phi(f)=\|f\|_{\mathcal{H}}^2 \]

该设计不是随机选择，而是有明确的数学与工程目的，核心原因如下： 1. 平滑度的概率化表达：\(\phi(f)=\|f\|_{\mathcal{H}}^2\)是向量场在RKHS空间的范数平方，等价于向量场的「总抖动/不平滑度」：\(\phi(f)\)越小，向量场越平滑；\(\phi(f)\)越大，向量场越崎岖、越容易被外点干扰。 2. 天然的偏好惩罚机制：指数函数\(e^{-\frac{\lambda}{2} \phi(f)}\)是经典的吉布斯先验，完美实现「平滑奖励、抖动惩罚」：向量场越平滑，\(\phi(f)\)越小，先验概率\(p(f)\)越高；向量场越抖动，先验概率呈指数级下降。 3. 与正则化的完美统一：对先验取负对数后，可得\(-ln p(f) \propto \frac{\lambda}{2}\|f\|_{\mathcal{H}}^2\)，与论文公式(1)的Tikhonov正则项完全等价，实现了「传统正则化优化」与「贝叶斯概率框架」的无缝衔接。 4. 超参数的可解释性：\(\lambda\)是平滑强度旋钮，\(\lambda\)越大，对抖动的惩罚越强，向量场越平滑；\(\lambda\)越小，模型越贴合观测数据，完美对应正则化系数的工程作用。

2.5 对数函数的严格单调性

自然对数\(ln(\cdot)\)是严格单调递增函数，具有两个核心性质，是推导能量函数的关键： 1. 最大化原函数 \(\iff\) 最大化原函数的对数 \(\iff\) 最小化原函数的负对数； 2. 对数可将概率的乘积转化为求和，避免大量小概率相乘导致的数值下溢，同时将优化问题转化为机器学习中更常用的「最小化损失/能量函数」形式。

2.6 其他基础建模假设

样本独立性：所有候选匹配对相互独立，整个数据集的联合似然等于所有单样本似然的乘积（公式4的核心依据）；
内点分布假设：内点位移服从各向同性D维高斯分布，均值为向量场预测值\(f(x_n)\)，协方差为\(\sigma^2 I_D\)；
外点分布假设：外点位移与输入无关，服从输出空间有界区域内的均匀分布，概率密度为\(1/a\)；
平坦先验假设：对\(\sigma^2\)和\(\gamma\)采用无信息平坦先验，其概率密度为常数，优化时不影响参数最优解，可直接忽略。

三、公式(6)分步完整推导（无跳步，每步含明确依据）

基于上述前置知识，我们从MAP估计的核心目标出发，严格推导出论文公式(6)，全程无近似、无跳步。

步骤1：简化MAP估计的优化目标

根据贝叶斯定理，后验概率的分母\(p(Y|X)\)是与参数\(\theta\)完全无关的固定常数，最大化后验概率\(p(\theta|X,Y)\)，等价于最大化分子\(p(Y|X,\theta) \cdot p(\theta)\)，即：

\[ \theta^* = \arg\max_{\theta} \ p(Y | X, \theta) \cdot p(\theta) \]

依据：贝叶斯定理 + 常数项不影响最优解的位置

步骤2：对最大化目标取自然对数，转化为求和形式

利用对数函数的严格单调性，最大化原函数等价于最大化其对数；同时利用对数乘积法则\(ln(ab)=lna + lnb\)，将乘积转化为求和，避免数值下溢：

\[ \theta^* = \arg\max_{\theta} \ \left[ ln\ p(Y | X, \theta) + ln\ p(\theta) \right] \]

依据：对数函数的严格单调性 + 对数乘积法则

步骤3：转化为最小化负对数的能量函数

最大化上式，等价于最小化它的相反数。我们将这个最小化目标定义为能量函数\(E(\theta)\)，这是优化领域的标准操作：

\[ E(\theta) = - ln\ p(\theta) - ln\ p(Y | X, \theta) \] \[ \theta^* = \arg\min_{\theta} \ E(\theta) \]

依据：最大化\(f(x)\)等价于最小化\(-f(x)\)

步骤4：代入论文公式(4)的联合似然函数

公式(4)已经给出了整个数据集的联合似然函数，是单样本联合概率的乘积与边缘化结果：

\[ p(Y | X, \theta) = \prod_{n=1}^{N} \sum_{z_{n}} p\left(y_{n}, z_{n} | x_{n}, \theta\right) \] 利用对数求和法则\(ln(\prod_{n=1}^N a_n) = \sum_{n=1}^N ln a_n\)，对似然函数取对数，得到： \[ ln\ p(Y | X, \theta) = \sum_{n=1}^{N} ln \left( \sum_{z_{n}} p\left(y_{n}, z_{n} | x_{n}, \theta\right) \right) \]

依据：论文公式(4)的联合似然 + 对数乘积法则

步骤5：代入简化后的参数先验

根据前置假设，参数\(\theta\)的先验仅包含向量场\(f\)的有效先验，\(\sigma^2\)和\(\gamma\)的平坦先验为常数，取负对数后仍为常数，不影响优化，可直接忽略，因此：

\[ - ln\ p(\theta) = - ln\ p(f) + 常数 \]

依据：平坦先验假设 + 常数项不影响优化结果

步骤6：合并得到最终的公式(6)

将步骤4和步骤5的结果代入步骤3的能量函数，省略不影响优化的常数项，最终得到论文原文的公式(6)：

\[ \boxed{ E(\theta)=-ln p(f)-\sum_{n=1}^{N} ln \sum_{z_{n}} p\left(y_{n}, z_{n} | x_{n}, \theta\right) } \] > 依据：代数合并 + 常数项省略

四、公式(6)的深度解析与全算法链路衔接

4.1 与公式(1)的本质统一：正则化=贝叶斯先验

将向量场先验代入公式(6)，可直接证明其与公式(1)的Tikhonov正则化优化完全等价： 1. 先验取负对数：\(-ln p(f) = \frac{\lambda}{2} \|f\|_{\mathcal{H}}^2 + 常数\) 2. 代入公式(6)，能量函数可改写为： \[ E(\theta) = \frac{\lambda}{2} \|f\|_{\mathcal{H}}^2 - \sum_{n=1}^{N} ln \left( \sum_{z_{n}} p\left(y_{n}, z_{n} | x_{n}, \theta\right) \right) \] 3. 与公式(1)完全对应： - \(\frac{\lambda}{2} \|f\|_{\mathcal{H}}^2\) → 公式(1)的正则化项，约束向量场平滑度； - 负对数似然项 → 公式(1)的拟合损失项，约束模型对观测数据的贴合度。

核心结论：公式(1)的确定性正则化优化，本质上就是公式(6)贝叶斯MAP估计的简化形式，两者逻辑完全自洽。

4.2 与EM算法的核心衔接

公式(6)是整个EM迭代算法的全局优化目标： - 公式(6)中包含隐变量\(z_n\)，无法直接求闭式解，因此采用EM算法迭代求解； - 论文中的公式(7)（Q函数），是对公式(6)能量函数的期望下界； - E步：固定参数\(\theta\)，计算隐变量\(z_n\)的后验概率（内点概率\(p_n\)）； - M步：固定隐变量的后验概率，最小化能量函数，更新参数\(\theta\)（向量场\(f\)、\(\sigma^2\)、\(\gamma\)）； - 迭代直至收敛，最终得到最优参数与内点/外点分类结果。