VFC算法详解3

贝叶斯最大后验估计(MAP)

一、公式原文与符号统一定义

1. 公式(6)原文

\[ E(\theta)=-ln p(f)-\sum_{n=1}^{N} ln \sum_{z_{n}} p\left(y_{n}, z_{n} | x_{n}, \theta\right) \tag{6} \]

2. 符号统一定义(与论文完全一致,含工程物理意义)

符号 数学定义 工程物理意义(2D点匹配场景)
\(\theta\) 待估参数集 \(\{f, \sigma^2, \gamma\}\) 模型核心参数:
1. \(f\):待估计的向量场函数(输入特征点坐标,输出位移向量)
2. \(\sigma^2\):内点位移的高斯噪声方差
3. \(\gamma\):匹配对为内点的先验概率
\(E(\theta)\) 能量函数 等价于参数的负对数后验概率,最小化该函数等价于最大化参数的后验概率
\(p(f)\) 向量场\(f\)的先验概率分布 公式(5)定义的平滑先验,约束向量场必须平滑,避免过拟合与外点干扰
\(N\) 候选匹配对总数 输入的特征点匹配对总数量
\(x_n\) \(n\)个输入点,\(\in \mathbb{R}^P\) 第一张图像中第\(n\)个特征点的坐标(2D场景\(P=2\)\(x_n=[u,v]^T\)像素坐标)
\(y_n\) \(n\)个输出向量,\(\in \mathbb{R}^D\) \(n\)个匹配对的位移向量(第二张图相对第一张图的坐标偏移,2D场景\(D=2\)
\(X\) 所有输入点集合 \(\{x_n\}_{n=1}^N\) 第一张图的全部特征点坐标(固定观测输入)
\(Y\) 所有输出向量集合 \(\{y_n\}_{n=1}^N\) 全部匹配对的位移向量(固定观测数据)
\(z_n\) 二值隐变量 \(\in\{0,1\}\) 匹配对类型标记:\(z_n=1\)为内点(符合向量场),\(z_n=0\)为外点(随机噪声)
\(p(y_n,z_n\|x_n,\theta)\) 单样本联合条件概率 给定输入\(x_n\)和参数\(\theta\)时,第\(n\)个样本与隐变量的联合概率(公式4的核心单元)
\(\lambda\) 正则化系数 平衡「数据拟合精度」与「向量场平滑度」的超参数
\(\phi(f)\) 平滑度泛函 等价于向量场在RKHS空间的范数平方\(\|f\|_{\mathcal{H}}^2\),量化向量场的不平滑程度

二、核心前置知识与建模假设

2.1 核心目标:贝叶斯最大后验估计(MAP)

我们的最终目标是:找到一组参数\(\theta\),使其在给定观测数据\(X,Y\)时的后验概率最大,即找到最能解释观测数据、同时符合平滑先验的模型参数,数学表达为:

\[ \theta^* = \arg\max_{\theta} \ p(\theta | X, Y) \]

工程意义:在点匹配场景中,就是找到既贴合有效匹配对、又足够平滑的向量场,同时自动区分内点与外点,实现鲁棒匹配。

2.2 条件概率、联合概率与贝叶斯定理(核心公式推导基础)

2.2.1 基础概念区分(解决\(p(Y|X)\)\(p(X,Y)\)的混淆)
概率类型 公式定义 直白含义 核心区别
联合概率 \(p(X,Y)\) \(X\)并且\(Y\)同时发生的概率 描述两个事件同时出现的总概率
条件概率 \(p(Y\|X) = \frac{p(X,Y)}{p(X)}\) 已经确定\(X\)发生的前提下\(Y\)发生的概率 \(X\)为前提的概率,仅当\(p(X)=1\)\(X\)必然发生)时,\(p(Y\|X)=p(X,Y)\)
2.2.2 联合概率链式法则

任意多变量的联合概率,均可拆解为条件概率的乘积,即:

\[ p(A,B,C) = p(A|B,C) \cdot p(B|C) \cdot p(C) \]

基于此,可直接推导出你之前验证的正确等式:

\[ p(\theta, X, Y) = p(Y | X, \theta) \cdot p(X, \theta) = p(\theta | X, Y) \cdot p(X, Y) \]

该等式是贝叶斯定理的直接来源,完全符合概率论基本规则。

2.2.3 贝叶斯定理完整推导

从链式法则的等式出发,将\(p(X,Y)\)移至等式左侧,得到贝叶斯定理的完整形式:

\[ p(\theta | X, Y) = \frac{p(Y | X, \theta) \cdot p(X, \theta)}{p(X, Y)} \]

结合条件概率定义\(p(X,\theta)=p(\theta|X)\cdot p(X)\)\(p(X,Y)=p(Y|X)\cdot p(X)\),代入后约去与\(\theta\)无关的\(p(X)\),最终得到论文中使用的贝叶斯公式:

\[ \boldsymbol{p(\theta | X, Y) = \frac{p(Y | X, \theta) \cdot p(\theta | X)}{p(Y | X)}} \]

2.3 关键建模假设:\(X\)\(\theta\)的先验独立性

论文中使用的简化\(p(\theta|X)=p(\theta)\)不是指最终求解的参数与输入无关,而是指先验分布的独立性,两者完全不矛盾,详细说明如下: ##### 2.3.1 先验独立的定义 \[ p(\theta|X) = p(\theta) \] 人话翻译:在未观测到匹配结果\(Y\)、仅看到输入特征点坐标\(X\)时,我们对模型参数\(\theta\)的初始预设(先验)不会发生任何改变。 ##### 2.3.2 合理性说明 - 我们对参数的核心先验是「向量场必须平滑」,这个规则是算法的固有约束,不会因为输入的特征点坐标变化而改变; - \(X\)是固定的输入坐标,仅提供位置信息,不会改变模型本身的先验规则; - 这是贝叶斯建模中对固定输入的标准简化假设,完全符合工程逻辑。 ##### 2.3.3 与「求解结果依赖输入」的区别 | 维度 | 结论 | 说明 | |------|------|------| | 先验建模层面 | \(\theta\)的先验与\(X\)无关 | 初始规则不随输入改变,用于公式推导简化 | | 最优求解层面 | 最终参数\(\theta^*\)\(X\)强相关 | \(\theta^* = \arg\max p(\theta\|X,Y)\),必须基于输入\(X\)和观测\(Y\)求解,完全符合你的认知 |

2.4 向量场先验\(p(f)\)的设计原理(解决先验形式的疑问)

论文中公式(5)定义的先验为:

\[ p(f) \propto e^{-\frac{\lambda}{2} \phi(f)}, \quad \phi(f)=\|f\|_{\mathcal{H}}^2 \]

该设计不是随机选择,而是有明确的数学与工程目的,核心原因如下: 1. 平滑度的概率化表达\(\phi(f)=\|f\|_{\mathcal{H}}^2\)是向量场在RKHS空间的范数平方,等价于向量场的「总抖动/不平滑度」:\(\phi(f)\)越小,向量场越平滑;\(\phi(f)\)越大,向量场越崎岖、越容易被外点干扰。 2. 天然的偏好惩罚机制:指数函数\(e^{-\frac{\lambda}{2} \phi(f)}\)是经典的吉布斯先验,完美实现「平滑奖励、抖动惩罚」:向量场越平滑,\(\phi(f)\)越小,先验概率\(p(f)\)越高;向量场越抖动,先验概率呈指数级下降。 3. 与正则化的完美统一:对先验取负对数后,可得\(-ln p(f) \propto \frac{\lambda}{2}\|f\|_{\mathcal{H}}^2\),与论文公式(1)的Tikhonov正则项完全等价,实现了「传统正则化优化」与「贝叶斯概率框架」的无缝衔接。 4. 超参数的可解释性\(\lambda\)是平滑强度旋钮,\(\lambda\)越大,对抖动的惩罚越强,向量场越平滑;\(\lambda\)越小,模型越贴合观测数据,完美对应正则化系数的工程作用。

2.5 对数函数的严格单调性

自然对数\(ln(\cdot)\)严格单调递增函数,具有两个核心性质,是推导能量函数的关键: 1. 最大化原函数 \(\iff\) 最大化原函数的对数 \(\iff\) 最小化原函数的负对数; 2. 对数可将概率的乘积转化为求和,避免大量小概率相乘导致的数值下溢,同时将优化问题转化为机器学习中更常用的「最小化损失/能量函数」形式。

2.6 其他基础建模假设

  1. 样本独立性:所有候选匹配对相互独立,整个数据集的联合似然等于所有单样本似然的乘积(公式4的核心依据);
  2. 内点分布假设:内点位移服从各向同性D维高斯分布,均值为向量场预测值\(f(x_n)\),协方差为\(\sigma^2 I_D\)
  3. 外点分布假设:外点位移与输入无关,服从输出空间有界区域内的均匀分布,概率密度为\(1/a\)
  4. 平坦先验假设:对\(\sigma^2\)\(\gamma\)采用无信息平坦先验,其概率密度为常数,优化时不影响参数最优解,可直接忽略。

三、公式(6)分步完整推导(无跳步,每步含明确依据)

基于上述前置知识,我们从MAP估计的核心目标出发,严格推导出论文公式(6),全程无近似、无跳步。

步骤1:简化MAP估计的优化目标

根据贝叶斯定理,后验概率的分母\(p(Y|X)\)是与参数\(\theta\)完全无关的固定常数,最大化后验概率\(p(\theta|X,Y)\),等价于最大化分子\(p(Y|X,\theta) \cdot p(\theta)\),即:

\[ \theta^* = \arg\max_{\theta} \ p(Y | X, \theta) \cdot p(\theta) \]

依据:贝叶斯定理 + 常数项不影响最优解的位置

步骤2:对最大化目标取自然对数,转化为求和形式

利用对数函数的严格单调性,最大化原函数等价于最大化其对数;同时利用对数乘积法则\(ln(ab)=lna + lnb\),将乘积转化为求和,避免数值下溢:

\[ \theta^* = \arg\max_{\theta} \ \left[ ln\ p(Y | X, \theta) + ln\ p(\theta) \right] \]

依据:对数函数的严格单调性 + 对数乘积法则

步骤3:转化为最小化负对数的能量函数

最大化上式,等价于最小化它的相反数。我们将这个最小化目标定义为能量函数\(E(\theta)\),这是优化领域的标准操作:

\[ E(\theta) = - ln\ p(\theta) - ln\ p(Y | X, \theta) \] \[ \theta^* = \arg\min_{\theta} \ E(\theta) \]

依据:最大化\(f(x)\)等价于最小化\(-f(x)\)

步骤4:代入论文公式(4)的联合似然函数

公式(4)已经给出了整个数据集的联合似然函数,是单样本联合概率的乘积与边缘化结果:

\[ p(Y | X, \theta) = \prod_{n=1}^{N} \sum_{z_{n}} p\left(y_{n}, z_{n} | x_{n}, \theta\right) \] 利用对数求和法则\(ln(\prod_{n=1}^N a_n) = \sum_{n=1}^N ln a_n\),对似然函数取对数,得到: \[ ln\ p(Y | X, \theta) = \sum_{n=1}^{N} ln \left( \sum_{z_{n}} p\left(y_{n}, z_{n} | x_{n}, \theta\right) \right) \]

依据:论文公式(4)的联合似然 + 对数乘积法则

步骤5:代入简化后的参数先验

根据前置假设,参数\(\theta\)的先验仅包含向量场\(f\)的有效先验,\(\sigma^2\)\(\gamma\)的平坦先验为常数,取负对数后仍为常数,不影响优化,可直接忽略,因此:

\[ - ln\ p(\theta) = - ln\ p(f) + 常数 \]

依据:平坦先验假设 + 常数项不影响优化结果

步骤6:合并得到最终的公式(6)

将步骤4和步骤5的结果代入步骤3的能量函数,省略不影响优化的常数项,最终得到论文原文的公式(6):

\[ \boxed{ E(\theta)=-ln p(f)-\sum_{n=1}^{N} ln \sum_{z_{n}} p\left(y_{n}, z_{n} | x_{n}, \theta\right) } \] > 依据:代数合并 + 常数项省略

四、公式(6)的深度解析与全算法链路衔接

4.1 与公式(1)的本质统一:正则化=贝叶斯先验

将向量场先验代入公式(6),可直接证明其与公式(1)的Tikhonov正则化优化完全等价: 1. 先验取负对数:\(-ln p(f) = \frac{\lambda}{2} \|f\|_{\mathcal{H}}^2 + 常数\) 2. 代入公式(6),能量函数可改写为: \[ E(\theta) = \frac{\lambda}{2} \|f\|_{\mathcal{H}}^2 - \sum_{n=1}^{N} ln \left( \sum_{z_{n}} p\left(y_{n}, z_{n} | x_{n}, \theta\right) \right) \] 3. 与公式(1)完全对应: - \(\frac{\lambda}{2} \|f\|_{\mathcal{H}}^2\) → 公式(1)的正则化项,约束向量场平滑度; - 负对数似然项 → 公式(1)的拟合损失项,约束模型对观测数据的贴合度。

核心结论:公式(1)的确定性正则化优化,本质上就是公式(6)贝叶斯MAP估计的简化形式,两者逻辑完全自洽。

4.2 与EM算法的核心衔接

公式(6)是整个EM迭代算法的全局优化目标: - 公式(6)中包含隐变量\(z_n\),无法直接求闭式解,因此采用EM算法迭代求解; - 论文中的公式(7)(Q函数),是对公式(6)能量函数的期望下界; - E步:固定参数\(\theta\),计算隐变量\(z_n\)的后验概率(内点概率\(p_n\)); - M步:固定隐变量的后验概率,最小化能量函数,更新参数\(\theta\)(向量场\(f\)\(\sigma^2\)\(\gamma\)); - 迭代直至收敛,最终得到最优参数与内点/外点分类结果。