Hanjie's Blog

一只有理想的羊驼

贝叶斯最大后验估计(MAP)

一、公式原文与符号统一定义

1. 公式(6)原文

\[ E(\theta)=-ln p(f)-\sum_{n=1}^{N} ln \sum_{z_{n}} p\left(y_{n}, z_{n} | x_{n}, \theta\right) \tag{6} \]

2. 符号统一定义(与论文完全一致,含工程物理意义)

符号 数学定义 工程物理意义(2D点匹配场景)
\(\theta\) 待估参数集 \(\{f, \sigma^2, \gamma\}\) 模型核心参数:
1. \(f\):待估计的向量场函数(输入特征点坐标,输出位移向量)
2. \(\sigma^2\):内点位移的高斯噪声方差
3. \(\gamma\):匹配对为内点的先验概率
\(E(\theta)\) 能量函数 等价于参数的负对数后验概率,最小化该函数等价于最大化参数的后验概率
\(p(f)\) 向量场\(f\)的先验概率分布 公式(5)定义的平滑先验,约束向量场必须平滑,避免过拟合与外点干扰
\(N\) 候选匹配对总数 输入的特征点匹配对总数量
\(x_n\) \(n\)个输入点,\(\in \mathbb{R}^P\) 第一张图像中第\(n\)个特征点的坐标(2D场景\(P=2\)\(x_n=[u,v]^T\)像素坐标)
\(y_n\) \(n\)个输出向量,\(\in \mathbb{R}^D\) \(n\)个匹配对的位移向量(第二张图相对第一张图的坐标偏移,2D场景\(D=2\)
\(X\) 所有输入点集合 \(\{x_n\}_{n=1}^N\) 第一张图的全部特征点坐标(固定观测输入)
\(Y\) 所有输出向量集合 \(\{y_n\}_{n=1}^N\) 全部匹配对的位移向量(固定观测数据)
\(z_n\) 二值隐变量 \(\in\{0,1\}\) 匹配对类型标记:\(z_n=1\)为内点(符合向量场),\(z_n=0\)为外点(随机噪声)
\(p(y_n,z_n\|x_n,\theta)\) 单样本联合条件概率 给定输入\(x_n\)和参数\(\theta\)时,第\(n\)个样本与隐变量的联合概率(公式4的核心单元)
\(\lambda\) 正则化系数 平衡「数据拟合精度」与「向量场平滑度」的超参数
\(\phi(f)\) 平滑度泛函 等价于向量场在RKHS空间的范数平方\(\|f\|_{\mathcal{H}}^2\),量化向量场的不平滑程度

二、核心前置知识与建模假设

2.1 核心目标:贝叶斯最大后验估计(MAP)

我们的最终目标是:找到一组参数\(\theta\),使其在给定观测数据\(X,Y\)时的后验概率最大,即找到最能解释观测数据、同时符合平滑先验的模型参数,数学表达为:

\[ \theta^* = \arg\max_{\theta} \ p(\theta | X, Y) \]

工程意义:在点匹配场景中,就是找到既贴合有效匹配对、又足够平滑的向量场,同时自动区分内点与外点,实现鲁棒匹配。

2.2 条件概率、联合概率与贝叶斯定理(核心公式推导基础)

2.2.1 基础概念区分(解决\(p(Y|X)\)\(p(X,Y)\)的混淆)
概率类型 公式定义 直白含义 核心区别
联合概率 \(p(X,Y)\) \(X\)并且\(Y\)同时发生的概率 描述两个事件同时出现的总概率
条件概率 \(p(Y\|X) = \frac{p(X,Y)}{p(X)}\) 已经确定\(X\)发生的前提下\(Y\)发生的概率 \(X\)为前提的概率,仅当\(p(X)=1\)\(X\)必然发生)时,\(p(Y\|X)=p(X,Y)\)
2.2.2 联合概率链式法则

任意多变量的联合概率,均可拆解为条件概率的乘积,即:

\[ p(A,B,C) = p(A|B,C) \cdot p(B|C) \cdot p(C) \]

基于此,可直接推导出你之前验证的正确等式:

\[ p(\theta, X, Y) = p(Y | X, \theta) \cdot p(X, \theta) = p(\theta | X, Y) \cdot p(X, Y) \]

该等式是贝叶斯定理的直接来源,完全符合概率论基本规则。

2.2.3 贝叶斯定理完整推导

从链式法则的等式出发,将\(p(X,Y)\)移至等式左侧,得到贝叶斯定理的完整形式:

\[ p(\theta | X, Y) = \frac{p(Y | X, \theta) \cdot p(X, \theta)}{p(X, Y)} \]

结合条件概率定义\(p(X,\theta)=p(\theta|X)\cdot p(X)\)\(p(X,Y)=p(Y|X)\cdot p(X)\),代入后约去与\(\theta\)无关的\(p(X)\),最终得到论文中使用的贝叶斯公式:

\[ \boldsymbol{p(\theta | X, Y) = \frac{p(Y | X, \theta) \cdot p(\theta | X)}{p(Y | X)}} \]

2.3 关键建模假设:\(X\)\(\theta\)的先验独立性

论文中使用的简化\(p(\theta|X)=p(\theta)\)不是指最终求解的参数与输入无关,而是指先验分布的独立性,两者完全不矛盾,详细说明如下: ##### 2.3.1 先验独立的定义 \[ p(\theta|X) = p(\theta) \] 人话翻译:在未观测到匹配结果\(Y\)、仅看到输入特征点坐标\(X\)时,我们对模型参数\(\theta\)的初始预设(先验)不会发生任何改变。 ##### 2.3.2 合理性说明 - 我们对参数的核心先验是「向量场必须平滑」,这个规则是算法的固有约束,不会因为输入的特征点坐标变化而改变; - \(X\)是固定的输入坐标,仅提供位置信息,不会改变模型本身的先验规则; - 这是贝叶斯建模中对固定输入的标准简化假设,完全符合工程逻辑。 ##### 2.3.3 与「求解结果依赖输入」的区别 | 维度 | 结论 | 说明 | |------|------|------| | 先验建模层面 | \(\theta\)的先验与\(X\)无关 | 初始规则不随输入改变,用于公式推导简化 | | 最优求解层面 | 最终参数\(\theta^*\)\(X\)强相关 | \(\theta^* = \arg\max p(\theta\|X,Y)\),必须基于输入\(X\)和观测\(Y\)求解,完全符合你的认知 |

2.4 向量场先验\(p(f)\)的设计原理(解决先验形式的疑问)

论文中公式(5)定义的先验为:

\[ p(f) \propto e^{-\frac{\lambda}{2} \phi(f)}, \quad \phi(f)=\|f\|_{\mathcal{H}}^2 \]

该设计不是随机选择,而是有明确的数学与工程目的,核心原因如下: 1. 平滑度的概率化表达\(\phi(f)=\|f\|_{\mathcal{H}}^2\)是向量场在RKHS空间的范数平方,等价于向量场的「总抖动/不平滑度」:\(\phi(f)\)越小,向量场越平滑;\(\phi(f)\)越大,向量场越崎岖、越容易被外点干扰。 2. 天然的偏好惩罚机制:指数函数\(e^{-\frac{\lambda}{2} \phi(f)}\)是经典的吉布斯先验,完美实现「平滑奖励、抖动惩罚」:向量场越平滑,\(\phi(f)\)越小,先验概率\(p(f)\)越高;向量场越抖动,先验概率呈指数级下降。 3. 与正则化的完美统一:对先验取负对数后,可得\(-ln p(f) \propto \frac{\lambda}{2}\|f\|_{\mathcal{H}}^2\),与论文公式(1)的Tikhonov正则项完全等价,实现了「传统正则化优化」与「贝叶斯概率框架」的无缝衔接。 4. 超参数的可解释性\(\lambda\)是平滑强度旋钮,\(\lambda\)越大,对抖动的惩罚越强,向量场越平滑;\(\lambda\)越小,模型越贴合观测数据,完美对应正则化系数的工程作用。

2.5 对数函数的严格单调性

自然对数\(ln(\cdot)\)严格单调递增函数,具有两个核心性质,是推导能量函数的关键: 1. 最大化原函数 \(\iff\) 最大化原函数的对数 \(\iff\) 最小化原函数的负对数; 2. 对数可将概率的乘积转化为求和,避免大量小概率相乘导致的数值下溢,同时将优化问题转化为机器学习中更常用的「最小化损失/能量函数」形式。

2.6 其他基础建模假设

  1. 样本独立性:所有候选匹配对相互独立,整个数据集的联合似然等于所有单样本似然的乘积(公式4的核心依据);
  2. 内点分布假设:内点位移服从各向同性D维高斯分布,均值为向量场预测值\(f(x_n)\),协方差为\(\sigma^2 I_D\)
  3. 外点分布假设:外点位移与输入无关,服从输出空间有界区域内的均匀分布,概率密度为\(1/a\)
  4. 平坦先验假设:对\(\sigma^2\)\(\gamma\)采用无信息平坦先验,其概率密度为常数,优化时不影响参数最优解,可直接忽略。

三、公式(6)分步完整推导(无跳步,每步含明确依据)

基于上述前置知识,我们从MAP估计的核心目标出发,严格推导出论文公式(6),全程无近似、无跳步。

步骤1:简化MAP估计的优化目标

根据贝叶斯定理,后验概率的分母\(p(Y|X)\)是与参数\(\theta\)完全无关的固定常数,最大化后验概率\(p(\theta|X,Y)\),等价于最大化分子\(p(Y|X,\theta) \cdot p(\theta)\),即:

\[ \theta^* = \arg\max_{\theta} \ p(Y | X, \theta) \cdot p(\theta) \]

依据:贝叶斯定理 + 常数项不影响最优解的位置

步骤2:对最大化目标取自然对数,转化为求和形式

利用对数函数的严格单调性,最大化原函数等价于最大化其对数;同时利用对数乘积法则\(ln(ab)=lna + lnb\),将乘积转化为求和,避免数值下溢:

\[ \theta^* = \arg\max_{\theta} \ \left[ ln\ p(Y | X, \theta) + ln\ p(\theta) \right] \]

依据:对数函数的严格单调性 + 对数乘积法则

步骤3:转化为最小化负对数的能量函数

最大化上式,等价于最小化它的相反数。我们将这个最小化目标定义为能量函数\(E(\theta)\),这是优化领域的标准操作:

\[ E(\theta) = - ln\ p(\theta) - ln\ p(Y | X, \theta) \] \[ \theta^* = \arg\min_{\theta} \ E(\theta) \]

依据:最大化\(f(x)\)等价于最小化\(-f(x)\)

步骤4:代入论文公式(4)的联合似然函数

公式(4)已经给出了整个数据集的联合似然函数,是单样本联合概率的乘积与边缘化结果:

\[ p(Y | X, \theta) = \prod_{n=1}^{N} \sum_{z_{n}} p\left(y_{n}, z_{n} | x_{n}, \theta\right) \] 利用对数求和法则\(ln(\prod_{n=1}^N a_n) = \sum_{n=1}^N ln a_n\),对似然函数取对数,得到: \[ ln\ p(Y | X, \theta) = \sum_{n=1}^{N} ln \left( \sum_{z_{n}} p\left(y_{n}, z_{n} | x_{n}, \theta\right) \right) \]

依据:论文公式(4)的联合似然 + 对数乘积法则

步骤5:代入简化后的参数先验

根据前置假设,参数\(\theta\)的先验仅包含向量场\(f\)的有效先验,\(\sigma^2\)\(\gamma\)的平坦先验为常数,取负对数后仍为常数,不影响优化,可直接忽略,因此:

\[ - ln\ p(\theta) = - ln\ p(f) + 常数 \]

依据:平坦先验假设 + 常数项不影响优化结果

步骤6:合并得到最终的公式(6)

将步骤4和步骤5的结果代入步骤3的能量函数,省略不影响优化的常数项,最终得到论文原文的公式(6):

\[ \boxed{ E(\theta)=-ln p(f)-\sum_{n=1}^{N} ln \sum_{z_{n}} p\left(y_{n}, z_{n} | x_{n}, \theta\right) } \] > 依据:代数合并 + 常数项省略

四、公式(6)的深度解析与全算法链路衔接

4.1 与公式(1)的本质统一:正则化=贝叶斯先验

将向量场先验代入公式(6),可直接证明其与公式(1)的Tikhonov正则化优化完全等价: 1. 先验取负对数:\(-ln p(f) = \frac{\lambda}{2} \|f\|_{\mathcal{H}}^2 + 常数\) 2. 代入公式(6),能量函数可改写为: \[ E(\theta) = \frac{\lambda}{2} \|f\|_{\mathcal{H}}^2 - \sum_{n=1}^{N} ln \left( \sum_{z_{n}} p\left(y_{n}, z_{n} | x_{n}, \theta\right) \right) \] 3. 与公式(1)完全对应: - \(\frac{\lambda}{2} \|f\|_{\mathcal{H}}^2\) → 公式(1)的正则化项,约束向量场平滑度; - 负对数似然项 → 公式(1)的拟合损失项,约束模型对观测数据的贴合度。

核心结论:公式(1)的确定性正则化优化,本质上就是公式(6)贝叶斯MAP估计的简化形式,两者逻辑完全自洽。

4.2 与EM算法的核心衔接

公式(6)是整个EM迭代算法的全局优化目标: - 公式(6)中包含隐变量\(z_n\),无法直接求闭式解,因此采用EM算法迭代求解; - 论文中的公式(7)(Q函数),是对公式(6)能量函数的期望下界; - E步:固定参数\(\theta\),计算隐变量\(z_n\)的后验概率(内点概率\(p_n\)); - M步:固定隐变量的后验概率,最小化能量函数,更新参数\(\theta\)(向量场\(f\)\(\sigma^2\)\(\gamma\)); - 迭代直至收敛,最终得到最优参数与内点/外点分类结果。

数据集的联合似然函数\(p(Y | X, \theta)\)

一、公式(4)原文与符号定义

1. 公式原文

\[ p(Y | X, \theta) =\prod_{n=1}^{N} \sum_{z_{n}} p\left(y_{n}, z_{n} | x_{n}, \theta\right) =\prod_{n=1}^{N}\left(\frac{\gamma}{\left(2 \pi \sigma^{2}\right)^{D / 2}} e^{-\frac{\left\| y_{n}-f\left(x_{n}\right)\right\| ^{2}}{2 \sigma^{2}}}+\frac{1-\gamma}{a}\right) \]

2. 符号统一定义(与论文完全一致)

符号 数学定义 工程物理意义
\(N\) 候选匹配对总数 输入的特征点匹配对数量
\(x_n\) \(n\)个输入点,\(\in \mathbb{R}^P\) 第一张图中第\(n\)个特征点的坐标
\(y_n\) \(n\)个输出向量,\(\in \mathbb{R}^D\) \(n\)个匹配对的位移向量(第二张图相对第一张图)
\(X\) 所有输入点的集合 \(\{x_n\}_{n=1}^N\) 输入特征点坐标集
\(Y\) 所有输出向量的集合 \(\{y_n\}_{n=1}^N\) 匹配对位移向量集
\(\theta\) 参数集 \(\{f, \sigma^2, \gamma\}\) 待估计的未知参数:向量场\(f\)、内点噪声方差\(\sigma^2\)、内点先验概率\(\gamma\)
\(z_n\) 二值隐变量 \(\in \{0,1\}\) 标记第\(n\)个匹配对的类型:\(z_n=1\)=内点,\(z_n=0\)=外点
\(D\) 输出向量的维度 2D图像匹配中\(D=2\),3D点云匹配中\(D=3\)
\(a\) 输出空间有界区域的体积 外点均匀分布的区域大小
\(f(\cdot)\) 待估计的向量场函数 从输入点坐标到位移向量的映射(即公式(2)定义的RKHS中的函数)

二、推导的核心前置假设(论文+2011 CVPR原文依据)

公式(4)的推导完全基于以下4个独立同分布(i.i.d.)的概率假设,该建模逻辑最早在2011年CVPR的VFC前身论文中提出,2014年TIP论文将其与贝叶斯MAP、RKHS正则化框架做了严谨融合,核心假设完全一致。

假设1:隐变量的先验分布(混合系数)

每个匹配对是内点的先验概率固定为\(\gamma\),外点的先验概率为\(1-\gamma\),所有样本独立:

\[ p(z_n=1) = \gamma, \quad p(z_n=0) = 1-\gamma \]

论文原文依据:"γ is the mixing coefficient specifying the marginal distribution over the latent variable" 2011 CVPR论文对应:明确用\(\gamma\)表示内点的先验比例,建模混合模型的权重。

假设2:内点的条件分布(\(z_n=1\)

内点的位移向量\(y_n\)服从各向同性的D维高斯分布,均值为向量场的预测值\(f(x_n)\),协方差矩阵为\(\sigma^2 I_D\)\(I_D\)为D阶单位矩阵),即噪声在各维度独立同分布:

\[ p(y_n | x_n, z_n=1, \theta) = \frac{1}{\left(2 \pi \sigma^{2}\right)^{D / 2}} e^{-\frac{\left\| y_{n}-f\left(x_{n}\right)\right\| ^{2}}{2 \sigma^{2}}} \]

论文原文依据:"for the inliers, the noise is Gaussian on each component with zero mean and uniform standard deviation σ" 2011 CVPR论文对应:内点建模为高斯分布,均值为向量场输出,是鲁棒拟合的核心。

假设3:外点的条件分布(\(z_n=0\)

外点的位移向量\(y_n\)与输入\(x_n\)无关,服从输出空间有界区域内的均匀分布,概率密度为常数\(1/a\)\(a\)为该区域的体积):

\[ p(y_n | x_n, z_n=0, \theta) = \frac{1}{a} \]

论文原文依据:"for the outliers, the output space is a bounded region of \(\mathbb{R}^D\), and the distribution is assumed to be uniform \(\frac{1}{a}\)" 2011 CVPR论文对应:外点建模为均匀分布,与向量场无关,用于区分随机噪声匹配。

假设4:样本独立性

所有候选匹配对之间相互独立,因此整个数据集的联合概率等于所有单个样本概率的乘积。

三、公式(4)分步完整推导

步骤1:写出单个样本的联合概率密度

根据条件概率公式 \(p(A,B)=p(A|B)p(B)\),单个样本\((x_n,y_n)\)的联合概率(含隐变量\(z_n\))为:

\[ p(y_n, z_n | x_n, \theta) = p(y_n | x_n, z_n, \theta) \cdot p(z_n | \theta) \]

将假设1-3的分布代入,分两种情况展开: - 当\(z_n=1\)(内点): \[ p(y_n, z_n=1 | x_n, \theta) = \gamma \cdot \frac{1}{\left(2 \pi \sigma^{2}\right)^{D / 2}} e^{-\frac{\left\| y_{n}-f\left(x_{n}\right)\right\| ^{2}}{2 \sigma^{2}}} \] - 当\(z_n=0\)(外点): \[ p(y_n, z_n=0 | x_n, \theta) = (1-\gamma) \cdot \frac{1}{a} \]

步骤2:对隐变量边缘化,得到单个样本的边缘似然

隐变量\(z_n\)是不可观测的隐藏变量,我们需要对其所有可能的取值求和(离散变量的边缘化),得到仅关于观测数据\(y_n\)的边缘概率密度:

\[ p(y_n | x_n, \theta) = \sum_{z_n \in \{0,1\}} p(y_n, z_n | x_n, \theta) \]

将步骤1的两种情况代入求和,直接得到单个样本的边缘似然:

\[ p(y_n | x_n, \theta) = \frac{\gamma}{\left(2 \pi \sigma^{2}\right)^{D / 2}} e^{-\frac{\left\| y_{n}-f\left(x_{n}\right)\right\| ^{2}}{2 \sigma^{2}}} + \frac{1-\gamma}{a} \]

步骤3:利用样本独立性,得到整个数据集的似然函数

根据假设4,所有样本独立同分布,因此整个数据集的联合似然是所有单个样本边缘似然的乘积:

\[ p(Y | X, \theta) = \prod_{n=1}^N p(y_n | x_n, \theta) \]

将步骤2得到的单个样本似然代入,最终得到论文中的公式(4):

\[ \boxed{ p(Y | X, \theta) =\prod_{n=1}^{N}\left(\frac{\gamma}{\left(2 \pi \sigma^{2}\right)^{D / 2}} e^{-\frac{\left\| y_{n}-f\left(x_{n}\right)\right\| ^{2}}{2 \sigma^{2}}}+\frac{1-\gamma}{a}\right) } \]

VFC算法(Vector Field Consensus,向量场一致性算法) 是一种常用于计算机视觉与图像处理的核心算法。其核心功能是从包含大量“误匹配(外点)”的初始特征点对中,精准筛选出“正确匹配(内点)”。相比于传统的RANSAC算法,VFC算法在误匹配比例极高或图像发生非刚性形变的场景下表现出更高的鲁棒性与效率。

VFC论文核心公式(1)(2)(3)推导与理解文档

一、基础符号与物理意义

结合论文2D图像点匹配核心场景,所有符号均对应实际工程数据,无抽象数学: | 数学符号 | 程序员直白理解 | 实际数据含义 | |--------|--------------|-------------| | \(\mathcal{X} \subseteq \mathbb{R}^P\) | 输入空间 | 第一张图的特征点坐标,2D匹配中\(P=2\)\(x=[u,v]^T\)像素坐标) | | \(\mathcal{Y} \subseteq \mathbb{R}^D\) | 输出空间 | 点的位移向量,2D匹配中\(D=2\)\(y=[dx,dy]^T\)) | | \(N\) | 样本数量 | 候选匹配对的总个数 | | \(x_n\) | 第\(n\)个输入样本 | 第一张图中第\(n\)个特征点的坐标向量 | | \(y_n\) | 第\(n\)个输出样本 | 第\(n\)个匹配对的位移向量(第二张图相对第一张图) | | \(x_i、x_j\) | 第\(i/j\)个输入点 | 样本集中任意两个输入特征点,用于计算核相似度 | | \(\Gamma(x,x')\) | 矩阵值核函数 | 衡量两个点的相似度,输出\(D×D\)矩阵(论文用简化标量核) | | \(\lambda\) | 正则化系数 | 平衡「拟合精度」和「函数平滑度」的超参数 |

二、核心前置:RKHS范数与平滑度的等价性

1. 关键结论

论文中RKHS空间的函数范数平方 \(\|f\|_{\mathcal{H}}^2\) = 函数的总平滑度(导数平方和) - 范数越小 → 函数导数越小 → 变化越平缓 → 越平滑 - 范数越大 → 函数导数越大 → 变化越剧烈 → 越崎岖(过拟合)

2. 数学本质

RKHS范数是平滑度的数学封装,等价于函数各阶导数的平方积分,天然用于惩罚函数抖动、防止过拟合,是公式(1)正则项的核心依据。

三、公式(1):带正则化的插值优化目标

1. 公式原文

\[\mathcal{E}(f)=\min _{f \in \mathcal{H}}\left\{\sum_{n=1}^{N}\left\| y_{n}-f\left(x_{n}\right)\right\| ^{2}+\lambda\| f\| _{\mathcal{H}}^{2}\right\}\]

2. 物理意义

我们的目标:找到一个函数\(f\),实现向量场插值(给任意点\(x\)输出对应位移\(y\)),同时满足两个要求: 1. 函数在样本点上的输出尽量接近真实位移; 2. 函数足够平滑,不抖动、不过拟合。

3. 公式两项拆解

公式项 名称 直白含义 代码类比
\(\sum_{n=1}^{N}\left\| y_{n}-f(x_{n})\right\| ^{2}\) 拟合损失 函数在样本点的输出与真实位移的误差平方和,越小拟合越准 机器学习MSE损失
\(\lambda\| f\| _{\mathcal{H}}^{2}\) 正则化项 惩罚函数的抖动程度,越小函数越平滑 L2正则化,防止过拟合

4. 核心作用

平衡拟合精度平滑度,避免函数为了贴合样本而剧烈抖动(点匹配中可抵抗外点噪声)。

四、公式(2):最优解的固定形式

1. 公式原文

\[f(x)=\sum_{n=1}^{N} \Gamma\left(x, x_{n}\right) c_{n}, \quad c_{n} \in \mathcal{Y}\]

2. 物理意义

公式(1)的最优解\(f\),一定是N个核函数的线性组合: - 每个样本点\(x_n\)对应一个核函数\(\Gamma(x,x_n)\); - \(c_n\)是待求的\(D\)维系数向量(唯一未知数); - 把所有核函数加权求和,就是最终的插值函数。

3. 工程价值

无限维函数优化问题,降维为求N个系数的有限维问题,代码可直接求解。

五、Gram矩阵\(\tilde{\Gamma}\)的具体构建

公式(3)中的\(\tilde{\Gamma}\)是Gram矩阵,由核函数和样本点\(x_i/x_j\)直接构建,分通用形式论文简化形式(工程用简化版)。

1. 通用形式(矩阵值核)

  • 核函数:\(\Gamma(x_i,x_j)\) 输入两个点,输出\(D×D\)矩阵;
  • Gram矩阵:\(N×N\)分块矩阵,总维度\((D·N)×(D·N)\)
  • 构建规则:第\(i\)行第\(j\)列的分块 = \(\Gamma(x_i,x_j)\)

示例\(N=2\)(2个匹配对)、\(D=2\)(2D位移) \[ \tilde{\Gamma} = \begin{bmatrix} \Gamma(x_1,x_1) & \Gamma(x_1,x_2) \\ \Gamma(x_2,x_1) & \Gamma(x_2,x_2) \end{bmatrix} \] 每个分块是\(2×2\)矩阵,最终拼成\(4×4\)矩阵。

2. 论文简化形式

论文用高斯标量核,计算量大幅降低: \[\Gamma(x_i,x_j) = \kappa(x_i,x_j)·I_D, \quad \kappa(x_i,x_j)=e^{-\beta\|x_i-x_j\|^2}\] - \(\kappa(x_i,x_j)\):标量高斯核,衡量\(x_i\)\(x_j\)的距离相似度; - \(I_D\)\(D\)阶单位矩阵; - Gram矩阵:\(\tilde{\Gamma} = K \otimes I_D\)\(K\)\(N×N\)标量核矩阵,\(\otimes\)为克罗内克积)。

示例\(N=2,D=2\),标量核矩阵\(K=\begin{bmatrix}k_{11}&k_{12}\\k_{21}&k_{22}\end{bmatrix}\) \[ \tilde{\Gamma} = \begin{bmatrix} k_{11} & 0 & k_{12} & 0 \\ 0 & k_{11} & 0 & k_{12} \\ k_{21} & 0 & k_{22} & 0 \\ 0 & k_{21} & 0 & k_{22} \end{bmatrix} \]

六、公式(3)完整推导过程

1. 公式原文

\[(\tilde{\Gamma}+\lambda I) \tilde{C}=\tilde{Y}\] - \(\tilde{C}\):系数拼接向量(待求); - \(\tilde{Y}\):样本位移拼接向量(已知); - \(I\):与\(\tilde{\Gamma}\)同维度单位矩阵。

2. 推导前置:向量向量化

把公式(2)的系数、样本输出拼接为长列向量,转化为矩阵运算: 1. 系数向量:\(\tilde{C} = \begin{bmatrix} c_1 \\ c_2 \\ \vdots \\ c_N \end{bmatrix}\)(维度\(D·N×1\)) 2. 样本向量:\(\tilde{Y} = \begin{bmatrix} y_1 \\ y_2 \\ \vdots \\ y_N \end{bmatrix}\)(维度\(D·N×1\)) 3. 函数输出:\(\tilde{V} = \begin{bmatrix} f(x_1) \\ f(x_2) \\ \vdots \\ f(x_N) \end{bmatrix} = \tilde{\Gamma}\tilde{C}\)(由公式(2)直接推导)

3. 步骤1:将公式(1)转化为矩阵形式

拟合损失 + 正则项的矩阵表达: \[\mathcal{E}(\tilde{C}) = \underbrace{(\tilde{Y}-\tilde{\Gamma}\tilde{C})^T(\tilde{Y}-\tilde{\Gamma}\tilde{C})}_{拟合损失} + \underbrace{\lambda \tilde{C}^T\tilde{\Gamma}\tilde{C}}_{正则项}\]

4. 步骤2:展开损失函数

利用矩阵转置性质\((\tilde{\Gamma}\tilde{C})^T=\tilde{C}^T\tilde{\Gamma}^T\),且\(\tilde{\Gamma}\)对称(\(\tilde{\Gamma}^T=\tilde{\Gamma}\)): \[ \mathcal{E}(\tilde{C}) = \tilde{Y}^T\tilde{Y} - 2\tilde{Y}^T\tilde{\Gamma}\tilde{C} + \tilde{C}^T\tilde{\Gamma}^2\tilde{C} + \lambda\tilde{C}^T\tilde{\Gamma}\tilde{C} \]

5. 步骤3:对\(\tilde{C}\)求导并令导数为0

二次函数最小值出现在梯度为0处,用到矩阵求导规则: 1. \(\frac{d}{dx}(b^Tx)=b\);2. \(\frac{d}{dx}(x^TAx)=2Ax\)\(A\)对称)

求导结果: \[\frac{d\mathcal{E}}{d\tilde{C}} = -2\tilde{\Gamma}\tilde{Y} + 2\tilde{\Gamma}^2\tilde{C} + 2\lambda\tilde{\Gamma}\tilde{C} = 0\]

6. 步骤4:化简得到最终公式

两边除以2,提取公因子\(\tilde{\Gamma}\)\[\tilde{\Gamma}(\tilde{\Gamma}+\lambda I)\tilde{C} = \tilde{\Gamma}\tilde{Y}\] \(\tilde{\Gamma}\)可逆,两边左乘\(\tilde{\Gamma}^{-1}\),最终得到: \[\boxed{(\tilde{\Gamma}+\lambda I)\tilde{C}=\tilde{Y}}\]

七、工程实现关键补充

  1. 解的唯一性\(\lambda>0\)时,\(\tilde{\Gamma}+\lambda I\)严格正定,有且仅有唯一解,代码求解稳定;
  2. 求解方式:Python用numpy.linalg.solve,MATLAB用\运算符(Cholesky分解,高效稳定);
  3. 论文简化版:标量核场景下,公式(3)简化为\(N×N\)标量方程组,计算量缩小\(D^2\)倍;
  4. 代码类比:公式(3)就是标准线性方程组\(Ax=b\)\(A=\tilde{\Gamma}+\lambda I\)\(x=\tilde{C}\)\(b=\tilde{Y}\)

八、整体逻辑总结(复习核心)

  1. 公式(1):定义插值目标,平衡拟合精度平滑度,用RKHS范数惩罚函数抖动;
  2. 公式(2):表示定理锁定最优解形式,将无限维函数问题降为求N个系数
  3. Gram矩阵:由样本点\(x_i/x_j\)和核函数构建,是连接样本与系数的核心矩阵;
  4. 公式(3):对优化目标求导得到线性方程组,解出系数即得到最终插值函数,完成向量场插值。

整套公式的本质:用数学方法实现「既准又平滑」的向量场插值,为点匹配剔除外点提供核心算法支撑

0%