コンテンツにスキップ

6.1.2 高次元空間

出典: C. M. Bishop, H. Bishop, Deep Learning, Springer 2024, §6.1.2
担当: 駒月柊平
日付: 2026-04-26

← 概要に戻る


このサブセクションの位置づけ

§6.1.1 では、多項式基底やグリッド状の分類器を例に、入力次元が増えると必要な係数数・セル数が急増することを見た。本節では、その背景にある高次元空間そのものの性質を確認する。低次元で作った「中心付近に多くの体積がある」「原点付近にガウス分布の質量が集まる」といった直感は、高次元では大きく外れる。

前後の接続

  • ← 前(§6.1.1 次元の呪い): 固定基底関数を高次元空間全体に配置すると、基底数や訓練データ数が爆発的に必要になる。
  • → 次(§6.1.3 データ多様体): 高次元空間全体は扱いにくいが、実データは低い有効次元の多様体付近に集中することが多い。

高次元球では体積が表面近くに集まる

半径 \(1\)\(D\) 次元超球を考える。低次元の直感では、体積は中心付近にも十分あるように感じる。しかし \(D\) が大きくなると、体積のほとんどは表面直下の薄い殻に集中する。

数式の導出

出発点: 半径 \(r\)\(D\) 次元超球の体積は、半径の \(D\) 乗に比例する。

\[V_D(r) = K_D r^D \tag{6.4}\]
  • \(V_D(r)\):半径 \(r\)\(D\) 次元超球の体積
  • \(K_D\):次元 \(D\) だけに依存する定数
  • \(r^D\):半径を変えたときのスケーリングを決める項

半径 \(1-\epsilon\) から \(1\) までの薄い殻に含まれる体積の割合を求める。

\[ \frac{V_D(1) - V_D(1-\epsilon)}{V_D(1)} = \frac{K_D - K_D(1-\epsilon)^D}{K_D} = 1 - (1-\epsilon)^D \tag{6.5} \]

結論:

\[\text{外側の厚さ }\epsilon\text{ の殻にある体積割合} = 1 - (1-\epsilon)^D\]

直感的な理解

\(D\) が大きいと、\((1-\epsilon)^D\) は小さくなりやすい。たとえば \(\epsilon = 0.1\) でも、\(D=20\) なら内側半径 \(0.9\) の体積割合は \(0.9^{20} \simeq 0.12\) しかなく、残りの約 \(88\%\) が外側 10% の殻にある。

高次元の中心は広くない

高次元球では、中心付近は半径方向には広く見えても、体積としてはほとんどを占めない。機械学習で「近い」「代表的」「平均的」を考えるとき、この性質は重要になる。


ガウス分布の確率質量も薄い殻に集まる

高次元で直感が外れるのは一様な球だけではない。機械学習で頻繁に使う等方的ガウス分布でも、確率質量は原点そのものではなく、ある半径付近の薄い殻に集中する。

標準正規分布 \(\mathcal{N}(\mathbf{0}, \mathbf{I})\) の密度は原点で最大だが、半径 \(r\) の薄い殻には多くの方向がある。半径方向の確率密度は、点ごとの密度と、半径 \(r\) の球面の表面積に対応する項の積として考えられる。

\[p(r) \propto r^{D-1}\exp\left(-\frac{r^2}{2}\right)\]

ここで \(r^{D-1}\) は、半径が大きくなるほど球面上の方向数が増える効果を表す。一方、\(\exp(-r^2/2)\) は原点から離れるほど点ごとの密度が下がる効果を表す。高次元ではこの二つの効果が釣り合い、確率質量は原点から離れた特定の半径付近に集中する。

最頻半径の導出

対数を取ると、最大化する対象は次の形になる。

\[\log p(r) = \text{const} + (D-1)\log r - \frac{r^2}{2}\]

\(r\) で微分して \(0\) とおく。

\[\frac{d}{dr}\log p(r) = \frac{D-1}{r} - r = 0\]

したがって、

\[r^2 = D - 1,\qquad r = \sqrt{D-1}\]

結論: 高次元標準ガウスの確率質量は、原点ではなく半径およそ \(\sqrt{D}\) の薄い殻に集中する。

密度最大点と典型点は違う

ガウス分布の密度は原点で最大だが、高次元では原点付近の体積が小さいため、そこにある確率質量は大きくない。高次元確率では「密度が高い点」と「よくサンプルされる典型的な点」を分けて考える必要がある。


具体例・可視化

次の図は、高次元で二つの集中が起きる流れをまとめたもの。

graph TD
    A["低次元の直感<br/>中心付近が代表的"] --> B["D次元球<br/>VD(r)=KD r^D"]
    B --> C["外側の殻<br/>1-(1-epsilon)^D"]
    C --> D["Dが大きいほど<br/>体積は表面近くへ集中"]

    A --> E["D次元ガウス<br/>点密度は原点で最大"]
    E --> F["球面方向の数<br/>r^(D-1)"]
    F --> G["確率質量は<br/>r ~= sqrt(D) の殻へ集中"]

    D --> H["教訓<br/>低次元の幾何直感は危険"]
    G --> H
    H --> I["次節<br/>実データは多様体付近に存在"]

薄い殻の体積割合

次元 \(D\) 外側 10% の殻の体積割合 \(1-0.9^D\) 解釈
1 0.10 低次元では厚さにほぼ比例する
2 0.19 まだ中心側にもかなり体積がある
5 0.41 外側の寄与が大きくなり始める
20 0.88 体積の大半が表面近くにある
100 0.99997 ほぼすべてが外側 10% にある

高次元の利点もある

高次元は難しさだけを生むわけではない。§6.1.2 の後半では、1次元では重なって見えるクラスが、2次元では線形分離可能になる例が示される。表現空間を高次元化することで、分類問題が簡単になる場合もある。


まとめ

ポイント 内容
超球の体積 \(V_D(r)=K_Dr^D\) なので、外側の薄い殻の体積割合は \(1-(1-\epsilon)^D\) になる
体積集中 \(D\) が大きいほど、超球の体積は表面近くに集中する
ガウス分布 点密度は原点で最大でも、確率質量は半径 \(\sqrt{D}\) 付近の殻に集中する
直感の破綻 低次元で自然な「中心」「近傍」「代表点」の感覚は、高次元ではそのまま使えない
高次元の利点 次元を増やすことでクラスが線形分離しやすくなる場合もある

結論: 高次元空間では、体積や確率質量が薄い殻に集中するため、低次元の幾何的直感はしばしば誤る。ただし高次元性は常に悪ではなく、適切な表現空間では分類を容易にする利点もある。


担当者の議論・疑問点

  • 高次元ガウスで「密度最大の原点」と「典型的なサンプルの半径」が異なることは、生成モデルの評価や異常検知にどう影響するか?
  • 距離に基づく最近傍法やクラスタリングは、高次元でどのように壊れやすいか?
  • 高次元化が分類を容易にする例と、次元の呪いが問題になる例を分ける条件は何か?
  • §6.1.3 のデータ多様体の仮定は、高次元空間の難しさをどの程度回避できるのか?