VFC算法详解3
贝叶斯最大后验估计(MAP)
一、公式原文与符号统一定义
1. 公式(6)原文
\[ E(\theta)=-ln p(f)-\sum_{n=1}^{N} ln \sum_{z_{n}} p\left(y_{n}, z_{n} | x_{n}, \theta\right) \tag{6} \]
2. 符号统一定义(与论文完全一致,含工程物理意义)
| 符号 | 数学定义 | 工程物理意义(2D点匹配场景) |
|---|---|---|
| \(\theta\) | 待估参数集 \(\{f, \sigma^2, \gamma\}\) | 模型核心参数: 1. \(f\):待估计的向量场函数(输入特征点坐标,输出位移向量) 2. \(\sigma^2\):内点位移的高斯噪声方差 3. \(\gamma\):匹配对为内点的先验概率 |
| \(E(\theta)\) | 能量函数 | 等价于参数的负对数后验概率,最小化该函数等价于最大化参数的后验概率 |
| \(p(f)\) | 向量场\(f\)的先验概率分布 | 公式(5)定义的平滑先验,约束向量场必须平滑,避免过拟合与外点干扰 |
| \(N\) | 候选匹配对总数 | 输入的特征点匹配对总数量 |
| \(x_n\) | 第\(n\)个输入点,\(\in \mathbb{R}^P\) | 第一张图像中第\(n\)个特征点的坐标(2D场景\(P=2\),\(x_n=[u,v]^T\)像素坐标) |
| \(y_n\) | 第\(n\)个输出向量,\(\in \mathbb{R}^D\) | 第\(n\)个匹配对的位移向量(第二张图相对第一张图的坐标偏移,2D场景\(D=2\)) |
| \(X\) | 所有输入点集合 \(\{x_n\}_{n=1}^N\) | 第一张图的全部特征点坐标(固定观测输入) |
| \(Y\) | 所有输出向量集合 \(\{y_n\}_{n=1}^N\) | 全部匹配对的位移向量(固定观测数据) |
| \(z_n\) | 二值隐变量 \(\in\{0,1\}\) | 匹配对类型标记:\(z_n=1\)为内点(符合向量场),\(z_n=0\)为外点(随机噪声) |
| \(p(y_n,z_n\|x_n,\theta)\) | 单样本联合条件概率 | 给定输入\(x_n\)和参数\(\theta\)时,第\(n\)个样本与隐变量的联合概率(公式4的核心单元) |
| \(\lambda\) | 正则化系数 | 平衡「数据拟合精度」与「向量场平滑度」的超参数 |
| \(\phi(f)\) | 平滑度泛函 | 等价于向量场在RKHS空间的范数平方\(\|f\|_{\mathcal{H}}^2\),量化向量场的不平滑程度 |
二、核心前置知识与建模假设
2.1 核心目标:贝叶斯最大后验估计(MAP)
我们的最终目标是:找到一组参数\(\theta\),使其在给定观测数据\(X,Y\)时的后验概率最大,即找到最能解释观测数据、同时符合平滑先验的模型参数,数学表达为:
\[ \theta^* = \arg\max_{\theta} \ p(\theta | X, Y) \]
工程意义:在点匹配场景中,就是找到既贴合有效匹配对、又足够平滑的向量场,同时自动区分内点与外点,实现鲁棒匹配。
2.2 条件概率、联合概率与贝叶斯定理(核心公式推导基础)
2.2.1 基础概念区分(解决\(p(Y|X)\)与\(p(X,Y)\)的混淆)
| 概率类型 | 公式定义 | 直白含义 | 核心区别 |
|---|---|---|---|
| 联合概率 | \(p(X,Y)\) | \(X\)并且\(Y\)同时发生的概率 | 描述两个事件同时出现的总概率 |
| 条件概率 | \(p(Y\|X) = \frac{p(X,Y)}{p(X)}\) | 已经确定\(X\)发生的前提下,\(Y\)发生的概率 | 以\(X\)为前提的概率,仅当\(p(X)=1\)(\(X\)必然发生)时,\(p(Y\|X)=p(X,Y)\) |
2.2.2 联合概率链式法则
任意多变量的联合概率,均可拆解为条件概率的乘积,即:
\[ p(A,B,C) = p(A|B,C) \cdot p(B|C) \cdot p(C) \]
基于此,可直接推导出你之前验证的正确等式:
\[ p(\theta, X, Y) = p(Y | X, \theta) \cdot p(X, \theta) = p(\theta | X, Y) \cdot p(X, Y) \]
该等式是贝叶斯定理的直接来源,完全符合概率论基本规则。
2.2.3 贝叶斯定理完整推导
从链式法则的等式出发,将\(p(X,Y)\)移至等式左侧,得到贝叶斯定理的完整形式:
\[ p(\theta | X, Y) = \frac{p(Y | X, \theta) \cdot p(X, \theta)}{p(X, Y)} \]
结合条件概率定义\(p(X,\theta)=p(\theta|X)\cdot p(X)\)、\(p(X,Y)=p(Y|X)\cdot p(X)\),代入后约去与\(\theta\)无关的\(p(X)\),最终得到论文中使用的贝叶斯公式:
\[ \boldsymbol{p(\theta | X, Y) = \frac{p(Y | X, \theta) \cdot p(\theta | X)}{p(Y | X)}} \]
2.3 关键建模假设:\(X\)与\(\theta\)的先验独立性
论文中使用的简化\(p(\theta|X)=p(\theta)\),不是指最终求解的参数与输入无关,而是指先验分布的独立性,两者完全不矛盾,详细说明如下: ##### 2.3.1 先验独立的定义 \[ p(\theta|X) = p(\theta) \] 人话翻译:在未观测到匹配结果\(Y\)、仅看到输入特征点坐标\(X\)时,我们对模型参数\(\theta\)的初始预设(先验)不会发生任何改变。 ##### 2.3.2 合理性说明 - 我们对参数的核心先验是「向量场必须平滑」,这个规则是算法的固有约束,不会因为输入的特征点坐标变化而改变; - \(X\)是固定的输入坐标,仅提供位置信息,不会改变模型本身的先验规则; - 这是贝叶斯建模中对固定输入的标准简化假设,完全符合工程逻辑。 ##### 2.3.3 与「求解结果依赖输入」的区别 | 维度 | 结论 | 说明 | |------|------|------| | 先验建模层面 | \(\theta\)的先验与\(X\)无关 | 初始规则不随输入改变,用于公式推导简化 | | 最优求解层面 | 最终参数\(\theta^*\)与\(X\)强相关 | \(\theta^* = \arg\max p(\theta\|X,Y)\),必须基于输入\(X\)和观测\(Y\)求解,完全符合你的认知 |
2.4 向量场先验\(p(f)\)的设计原理(解决先验形式的疑问)
论文中公式(5)定义的先验为:
\[ p(f) \propto e^{-\frac{\lambda}{2} \phi(f)}, \quad \phi(f)=\|f\|_{\mathcal{H}}^2 \]
该设计不是随机选择,而是有明确的数学与工程目的,核心原因如下: 1. 平滑度的概率化表达:\(\phi(f)=\|f\|_{\mathcal{H}}^2\)是向量场在RKHS空间的范数平方,等价于向量场的「总抖动/不平滑度」:\(\phi(f)\)越小,向量场越平滑;\(\phi(f)\)越大,向量场越崎岖、越容易被外点干扰。 2. 天然的偏好惩罚机制:指数函数\(e^{-\frac{\lambda}{2} \phi(f)}\)是经典的吉布斯先验,完美实现「平滑奖励、抖动惩罚」:向量场越平滑,\(\phi(f)\)越小,先验概率\(p(f)\)越高;向量场越抖动,先验概率呈指数级下降。 3. 与正则化的完美统一:对先验取负对数后,可得\(-ln p(f) \propto \frac{\lambda}{2}\|f\|_{\mathcal{H}}^2\),与论文公式(1)的Tikhonov正则项完全等价,实现了「传统正则化优化」与「贝叶斯概率框架」的无缝衔接。 4. 超参数的可解释性:\(\lambda\)是平滑强度旋钮,\(\lambda\)越大,对抖动的惩罚越强,向量场越平滑;\(\lambda\)越小,模型越贴合观测数据,完美对应正则化系数的工程作用。
2.5 对数函数的严格单调性
自然对数\(ln(\cdot)\)是严格单调递增函数,具有两个核心性质,是推导能量函数的关键: 1. 最大化原函数 \(\iff\) 最大化原函数的对数 \(\iff\) 最小化原函数的负对数; 2. 对数可将概率的乘积转化为求和,避免大量小概率相乘导致的数值下溢,同时将优化问题转化为机器学习中更常用的「最小化损失/能量函数」形式。
2.6 其他基础建模假设
- 样本独立性:所有候选匹配对相互独立,整个数据集的联合似然等于所有单样本似然的乘积(公式4的核心依据);
- 内点分布假设:内点位移服从各向同性D维高斯分布,均值为向量场预测值\(f(x_n)\),协方差为\(\sigma^2 I_D\);
- 外点分布假设:外点位移与输入无关,服从输出空间有界区域内的均匀分布,概率密度为\(1/a\);
- 平坦先验假设:对\(\sigma^2\)和\(\gamma\)采用无信息平坦先验,其概率密度为常数,优化时不影响参数最优解,可直接忽略。
三、公式(6)分步完整推导(无跳步,每步含明确依据)
基于上述前置知识,我们从MAP估计的核心目标出发,严格推导出论文公式(6),全程无近似、无跳步。
步骤1:简化MAP估计的优化目标
根据贝叶斯定理,后验概率的分母\(p(Y|X)\)是与参数\(\theta\)完全无关的固定常数,最大化后验概率\(p(\theta|X,Y)\),等价于最大化分子\(p(Y|X,\theta) \cdot p(\theta)\),即:
\[ \theta^* = \arg\max_{\theta} \ p(Y | X, \theta) \cdot p(\theta) \]
依据:贝叶斯定理 + 常数项不影响最优解的位置
步骤2:对最大化目标取自然对数,转化为求和形式
利用对数函数的严格单调性,最大化原函数等价于最大化其对数;同时利用对数乘积法则\(ln(ab)=lna + lnb\),将乘积转化为求和,避免数值下溢:
\[ \theta^* = \arg\max_{\theta} \ \left[ ln\ p(Y | X, \theta) + ln\ p(\theta) \right] \]
依据:对数函数的严格单调性 + 对数乘积法则
步骤3:转化为最小化负对数的能量函数
最大化上式,等价于最小化它的相反数。我们将这个最小化目标定义为能量函数\(E(\theta)\),这是优化领域的标准操作:
\[ E(\theta) = - ln\ p(\theta) - ln\ p(Y | X, \theta) \] \[ \theta^* = \arg\min_{\theta} \ E(\theta) \]
依据:最大化\(f(x)\)等价于最小化\(-f(x)\)
步骤4:代入论文公式(4)的联合似然函数
公式(4)已经给出了整个数据集的联合似然函数,是单样本联合概率的乘积与边缘化结果:
\[ p(Y | X, \theta) = \prod_{n=1}^{N} \sum_{z_{n}} p\left(y_{n}, z_{n} | x_{n}, \theta\right) \] 利用对数求和法则\(ln(\prod_{n=1}^N a_n) = \sum_{n=1}^N ln a_n\),对似然函数取对数,得到: \[ ln\ p(Y | X, \theta) = \sum_{n=1}^{N} ln \left( \sum_{z_{n}} p\left(y_{n}, z_{n} | x_{n}, \theta\right) \right) \]
依据:论文公式(4)的联合似然 + 对数乘积法则
步骤5:代入简化后的参数先验
根据前置假设,参数\(\theta\)的先验仅包含向量场\(f\)的有效先验,\(\sigma^2\)和\(\gamma\)的平坦先验为常数,取负对数后仍为常数,不影响优化,可直接忽略,因此:
\[ - ln\ p(\theta) = - ln\ p(f) + 常数 \]
依据:平坦先验假设 + 常数项不影响优化结果
步骤6:合并得到最终的公式(6)
将步骤4和步骤5的结果代入步骤3的能量函数,省略不影响优化的常数项,最终得到论文原文的公式(6):
\[ \boxed{ E(\theta)=-ln p(f)-\sum_{n=1}^{N} ln \sum_{z_{n}} p\left(y_{n}, z_{n} | x_{n}, \theta\right) } \] > 依据:代数合并 + 常数项省略
四、公式(6)的深度解析与全算法链路衔接
4.1 与公式(1)的本质统一:正则化=贝叶斯先验
将向量场先验代入公式(6),可直接证明其与公式(1)的Tikhonov正则化优化完全等价: 1. 先验取负对数:\(-ln p(f) = \frac{\lambda}{2} \|f\|_{\mathcal{H}}^2 + 常数\) 2. 代入公式(6),能量函数可改写为: \[ E(\theta) = \frac{\lambda}{2} \|f\|_{\mathcal{H}}^2 - \sum_{n=1}^{N} ln \left( \sum_{z_{n}} p\left(y_{n}, z_{n} | x_{n}, \theta\right) \right) \] 3. 与公式(1)完全对应: - \(\frac{\lambda}{2} \|f\|_{\mathcal{H}}^2\) → 公式(1)的正则化项,约束向量场平滑度; - 负对数似然项 → 公式(1)的拟合损失项,约束模型对观测数据的贴合度。
核心结论:公式(1)的确定性正则化优化,本质上就是公式(6)贝叶斯MAP估计的简化形式,两者逻辑完全自洽。
4.2 与EM算法的核心衔接
公式(6)是整个EM迭代算法的全局优化目标: - 公式(6)中包含隐变量\(z_n\),无法直接求闭式解,因此采用EM算法迭代求解; - 论文中的公式(7)(Q函数),是对公式(6)能量函数的期望下界; - E步:固定参数\(\theta\),计算隐变量\(z_n\)的后验概率(内点概率\(p_n\)); - M步:固定隐变量的后验概率,最小化能量函数,更新参数\(\theta\)(向量场\(f\)、\(\sigma^2\)、\(\gamma\)); - 迭代直至收敛,最终得到最优参数与内点/外点分类结果。