過学習を回避しよう!【作って理解するディープラーニング#8】

こんにちは、えびかずきです！

今回は「過学習を回避しよう」です。

この記事ではニューラルネットで過学習を防ぐ方法として、

Weight DecayとDropoutの２つを紹介したいと思います！

1. 開発環境
- 1.1. ソースコード
2. 過学習とは？
- 2.1. 過学習の例
3. 過学習を防ぐテクニック
- 3.1. Weight Decay
  - 3.1.1. Weight Decayの効果確認
- 3.2. Dropout
  - 3.2.1. Dropoutの効果確認
4. まとめ
5. 参考書籍

開発環境

OS:macOS Catalina ver10.15.2

使用した外部ライブラリ:
numpy1.18.1
matplotlib3.0.3

エディタ：jupyter notebook

ソースコード

github/ebikazuki/deeplearning

本記事では、「＃８」と「dataset」と「common」のフォルダを使用します。

過学習とは？

過学習（Over Fitting）とは、

モデルが訓練データに悪い意味でフィットし過ぎてしまって

新しいデータに対する整合性がとれなくなってしまう現象のことを言います。

過学習が起きやすい条件は以下の二つです。

・モデルの表現力が高い

・訓練データ数が少ない

モデルの表現力が高いことがディープラーニングの良い面でもある訳ですが、

下手に使うと過学習で実用性がなくなってしまうという事です。

過学習の例

たとえば下の例を見てください。

これは、相関のあるxとyというデータを、関数y(x)で最小二乗法フィッティングした結果です。

2次関数の方(左)は、

データを滑らかにフィッティングできています。

一方の6次関数(右)は

ややいびつで、データのない外側の領域はおかしな曲線になってしまっています。

このような状態が過学習です。

モデルの表現力が高いために訓練データとの差は小さいのですが、

訓練データのない外側の領域ではモデルの複雑性を引き継いでしまって

実用的なフィッティングとは言えません。

ではこれを回避するテクニックを紹介していきましょう！

過学習を防ぐテクニック

Weight Decay

Weight Decay（直訳すると荷重減衰）とは、

重みのパラメータが大きくなり過ぎないように制限をかけることで過学習を防ぐ方法です。

これは機械学習の世界で正則化と呼ばれる手法になります。

過学習が起きてしまう典型的なケースとしては、

たくさんの変数で訓練データを説明してしまって訓練後のモデルが複雑化してしまうというケースです。

ちょうど上の「過学習とは？」で説明した６次関数のように、

たくさんの変数で訓練データをフィッティングしているようなケースです。

こういったケースでは、重みの２乗の総和が大きくなっています。

例えば、上の２次関数と6次関数の例で比較してみると、

重みの二乗の総和の比較：

・２次関数：36.28

・６次関数：1911145.18

と、圧倒的に６次関数の場合の方が大きくなっています。

Weight Decayではこの重みの二乗の総和を損失関数に加えることで、

過学習を防ぎます。

すなわち重みが大きくなることに制限をかけるという事です。

\(L=E+\dfrac{1}{2}λ\sum_k{(w_k)^2}\)

L:損失関数、E:誤差関数、λ:正則化パラメータ、W：重み

具体的には上式のように、誤差関数に重みの二乗の総和を加えたものを損失関数として、

ニューラルネットの学習を実行します。

λは正則化パラメータといって、正則化の強さを調整するパラメータです。

係数の1/2は、勾配逆伝播法で微分して勾配に変換した時に、

係数が消えてλwという簡単な項を導くための、テクニカルな工夫です。

ちょっと感覚的な説明になってしまいましたが、

詳しく原理を理解したい場合はL2正則化やRidge回帰で調べると意味や原理を詳しく知る事ができます。

用語に関する筆者のぼやき：
Weight Decay-荷重減衰は、個人的には荷重抑制の方が内容的にしっくり来る。
別に重みが減衰していく訳ではないので、なんだかイメージが違うように思います。

一方Regularization-正則化は、個人的には適正化とかの方がしっくり来る。
正則化というと何か規則みたいなものに合わせるというようなニュアンスを感じますが、実際は適切な方向に寄せるというような手法だと思います。
英語から日本語に変換して名前が付いたんだろうけど、呼び方を変えたいです。