两个经验分布差异度计算

两个经验分布差异度计算

K-L散度

即交叉熵。注意该值是不对称的,即 $D_{KL}(p,q) \neq D_{KL}(q,p)$

Kolmogorov-Smirnov 检验(KS test)

常用于检查两个经验分布是否相同,或者一个经验分布是否服从另一个已知的分布。该算法会返回两个结果: KS距离和p值。 其中KS距离表示KS检测中的绝对距离,该值越大二者差异越大,但由于样本个数等未归一化的影响因素,只看KS值是不准确的。于是有归一化后的用于显著性检测的p值,该值越大,二者越相关。通常的判据即KS值小且p值大,二者相关。

Maximum Mean Discrepancy(MMD)

即在一个函数族中,选择函数,计算两个经验分布所有值输入函数所得结果的均值之差,最大的差值就是我们想要的距离。为了使距离合理,函数族必须满足:

  1. 两个分布相同时结果为零,
  2. 结果随观测样本增加迅速收敛至期望。

已被证明函数族满足RHKS(Reproductive Hilbert Kernel Space,再生希尔伯特核空间)上的单位球时可以满足上两条性质。

Mahalanobis distance (马氏距离)

马氏距离衡量两个样本之间的距离,同时还包含欧式距离所没有的特点,比如对于一个各位之间有关系的多维向量 $x = (x_1, x_2, …, x_p)^T$,其协方差矩阵为$\Sigma$,均值为$\mu$,则有其马氏距离为: $D_M(x) = \sqrt{(x-\mu)^T\Sigma^{-1}(x-\mu)}$

由于考虑了协方差矩阵,该距离比欧式距离更能反映出样本不同位之间的相关信息。