高维空间中的正态分布分布在超球面中。


本文是Furukawa Lab Workout_calendar的第5天。
(注意:已于02/08/20纠正了"附录"中的错误)

忙碌的人的动画说明

如果您增加多元正态分布的维数,它将像这样。
animation.gif

最终它成为一个超球体。

介绍

当听到正态分布(高斯分布)时,您会想到什么样的"形状"?也许您会想到这种形状
1d_gaussian_pdf.png
这是标准正态分布$ p(x)= \\ frac {1} {\\ sqrt {2 \\ pi}} \\ exp(-\\ frac {1} {2} x ^ 2)$的图本身。如果知道正态分布,则可能会想到这种形状。但是二维正态分布呢?
2d_gaussian_samples.png
这是二维标准正态分布的样本点的图形表示。好吧,看起来像这样。让我们以相同的方式看3D。
3d_gaussian_samples.png

尽管诸如

的尺寸存在差异,但您可能会想像"中心(平均值)密集且距其距离稀疏的分布"。

那么,如果您进一步提高尺寸会发生什么呢?对于那些认为"什么?是不是一样?"的人,我不得不告诉您一个令人震惊的事实。参见下图 1。
image.png
左边是前面显示的二维正态分布。右边是超高维空间中正态分布的图像。实际上,它以球形(严格地说是超球形)分布。什么?你在说什么?我觉得。我将解释为什么会这样。

为什么变成超球面

现在考虑以下多元正态分布。

$$ p(\\ mathbf {x})= \\ mathcal {N}(\\ mathbf {x} | \\ mathbf {0},\\ mathbf {I} _n)$$

但是,$ \\ mathbf {x} \\ in \\ mathbb {R} ^ n $,均值是原点,协方差矩阵是$ n \\次的单位矩阵$ \\ mathbf {I} _n n $为简单起见,假设$。

其中范数$ || \\ mathbf {x} || $的期望值$ E(|| \\ mathbf {x} || $)如下所示 2。
$$
E(|| \\ mathbf {x} ||)= \\ frac {\\ sqrt {2} \\ Gamma \\ left(\\ frac {n 1} {2} \\ right)} {\\ Gamma \\ left(\\ frac {n} {2} \\正确)}
$$
伽马函数$ \\ Gamma $出来并且很难理解,但是可以用这样的不等式表示。
$$
\\ frac {n} {\\ sqrt {n 1}} \\ leq E(|| \\ mathbf {x} ||)\\ leq \\ sqrt {n}
$$
换句话说,维度$ n $越大,范数的期望值越高。较大的期望值意味着仅对具有较大范数的$ \\ mathbf {x} $进行采样,而对具有较小范数(=接近原点)的$ \\ mathbf {x} $进行采样。据说它将在 3中分发。顺便说一下,$ n $越大,$ E(|| x ||)\\ simeq \\ sqrt {n} $越大,因此您可以看到nsphere的半径接近$ \\ sqrt {n} $。

我通过模拟检查

我认为仍然有些人持怀疑态度,所以让我们通过模拟对其进行检查。实际上,我们将从多元正态分布中抽取大量样本,并尝试以某种方式对其进行可视化。具体来说,请看以下两个图。

  • 规范直方图
  • 使用范数和angular显示极坐标

后者如下计算所得样本$ \\ mathbf {x} $的极坐标$(r,\\ theta)$并将其绘制。
$$
\\开始{align}
[R