読書メモ:統計的機械学習

数年前になるが下記の本を読んだので備忘として記録する。

www.amazon.co.jp

------------------

所感

  • 全体的に最尤推定法やベイズ推定法(ベイズ予測分布を考える手法)を含む統計的推測の考え方がまとまっていて大変わかりやすかった。特にベイズ推定法の話は、MAP推定法とベイズ予測分布の導入から、事前分布、事後分布それぞれを求める方法(事前分布:周辺尤度最大化、事後分布:モンテカルロ積分、共役事前分布)が導入され、周辺尤度最大化(経験ベイズ法)はさらに計算手法として、MCMC法、ラプラス近似、変分近似法が紹介されていて、全体をストーリーとして捉えられるようになった気がする。

3章

  • 識別関数の良さを測る規準として最大事後確率則(maximum a posteriori probability rule)(=:MAP則)、最小誤識別率則(minimum misclassification rate rule)、ベイズ決定則(Bayes decision rule)の3つが挙げられていたが、それぞれの特徴が少しわかりスッキリした。本書ではMAP則を採用するとのこと。 
    • MAP則はある入力パターンが属する可能性が最も高いカテゴリを選ぶ考え方という点で自然であり、損失(loss)を考えるという点に特徴があるベイズ決定則も日常の人間の思考に近いという意味で自然であるようだが、損失の定量化が難しかったり計算が複雑になるといった理由からMAP則が用いられることが多く、本書でもこれを採用する(p48)。

5章

  •  MLE(最尤推定量)の理論的性質が主に述べられたが、MLEの性質について再認識できた。
    • そもそもMLEの良さ(期待二乗誤差の小ささ、p73)が保証されるのはサンプルサイズが大きいときであり、さらに、サンプルサイズが大きいときも、漸近不偏性、漸近有効性はあるものの不偏とは限らない推定量のクラスも考えるとバイアス+バリアンスの意味でより良い推定量が存在しうる(p81)。現実には有限標本であり、ゆえに一般に不偏性も持たない(ゆえに有効性も持たない)MLEではあるが(p76)、サンプルサイズが十分大きければ、漸近正規性とクラーメル・ラオの不等式の下限を達成することから導かれる(p76, 81)漸近有効性がその良さの根幹となっているのだと、バイアス・バリアンス分解(p73)からの一連の導出の流れを俯瞰することで実感できた。

7章

  • 7章ではまずガウスモデルについての説明がなされたが、一口にガウスモデルといっても様々な種類があり、3種類のガウスモデル(A)共分散行列が任意の正定値対称行列である場合 (B)共分散行列が対角行列かつ対角成分が異なる場合(C)共分散行列が対角行列かつ対角成分が等しい場合が紹介され、同じ確率分布であっても同じモデルであるとは限らない例を再認識できた。
  • 次に、モデル選択の一般論が述べられたが、その手法として、情報量規準(information criterion)と尤度交差確認法(likelihood cross validation)が紹介された(実務上はCVがメインと思われる)。これらは使用場面としてパラメトリックモデルに限られていた無意識の前提があったが、12章ではカーネル密度推定法(kernel density estimation)におけるバンド幅(band width)の選択に用いられており、その認識を改めることができたのでよかった。
  • 尤度原理(入れ子構造を持つモデル集合において、平均対数尤度を最小にするモデルを選択することにすれば(すなわち、KL情報量で第一項目を平均対数尤度で近似しそれを最小にするモデルを選ぶことにすれば)常に最も複雑なモデルを選んでしまう)についての説明のあと、情報量規準TICが導入され、負の期待対数尤度の推定量としては負の平均対数尤度と比較して誤差項のオーダーが次数1/nの項を含まないという意味でより優れていることがわかった。

8章

  • 勾配法は知っていたがその他関連手法がまとまっていて勉強になった。
    • 勾配法(gradient method)は最大化したい目的関数(objective function)の勾配を上っていくことにより、パラメータを最適化する汎用的な手法。このアルゴリズムは、解の初期値を適当に定めて、(1)現在のパラメータでの目的関数(の対数をとったもの)の勾配を計算→(2)パラメータにステップ幅×(1)の値を加えて更新→...を繰り返していくもの。このアルゴリズムは実装が非常に簡単で局所的最適解に収束することが保証される汎用的な手法だが、ステップ幅の決め方が難しい(具体的には、ステップ幅を大きくするほど大きく更新されるが大きくしすぎると局所解を通り過ぎてしまう)という問題がある。
    • この問題に対処するため、最初は大きめのステップ幅から始めその後徐々に小さくしていく焼きなまし(annealing)と呼ばれる手法が有効である。しかし、その実装は容易でない(なぜなら最初のステップ幅をどのくらいの大きさに設定すればよいか、どのくらいの早さでステップ幅を小さくしていけばよいかは目的関数に強く依存するため)。また、勾配法は局所最適解しか求めることができないという問題点もある。実際的には、異なる初期値から何度か勾配法を実行し、目的関数を最も大きくしたものを選ぶ多点探索(multipoint search)がよく用いられる。

9章

  • ベイズ推定法と関連手法の考え方が分かった。MAP推定は最尤推定ベイズ推定の中間的手法(橋渡し?)とみなせることも分かった。
    • 統計的機械学習におけるベイズ的立場、つまり、(ハイパーパラメータを除く)パラメータが確率分布に従うという立場ではベイズ予測分布を考える。ベイズ予測分布は事後分布に関しての積分計算を含むため、その近似手法という位置づけのものとして、MAP(maximum a posteriori probability estimation)推定法がある。これは事前分布の項を罰則項として見た罰則付き最尤推定法ともみなせる。ベイズ予測分布を考えるに際し、2つの主要な問題点--(1)事後分布の計算方法(2)事前分布を決める方法--がある。
      •  (1)のためには、例えば共役事前分布を使って閉形式で求める、あるいはモンテカルロ積分を基礎とする各種ランダムサンプリングの手法(例:重点サンプリング、逆関数法、棄却法、MCMC)で数値的に求める、などが考えられる。
      • (2)事前分布を決める方法には、BICを使うことが考えられるが、BICはもはや事前分布に依存しないため、事前分布のハイパーパラメータの設定のためのモデル選択には使えない。そこで、最尤推定法と同様、ハイパーパラメータも、手元の学習データが生成される確率が最も高くなるように設定するのは自然な考え方だといえる。周辺尤度を最大化するハイパーパラメータを用いて事前確率を設定しようとするこの考え方を、経験ベイズ法とよぶ。
        • 周辺尤度の計算はパラメータに関する積分を含む。MCMC法を用いることで数値的に計算することができだろうが、計算効率の観点からはラプラス近似の方が良く、これを用いることも考えられる。ラプラス近似は周辺尤度をガウス関数で近似する手法であるため、周辺尤度がガウス関数に近くないとき精度が良くない。そこで、あらかじめ用意しておいた関数族から最も良い近似を求める手法として、変分近似法(variational approximation)がある。