【ディープラーニング】 "37 Reasons why your Neural Network is not working"のまとめ
下記の記事がためになったため、まとめてみました。 blog.slavv.com
まず調べる事
上手くいくことが分かっている事から始める。例えば画像であればVGGを使ってみる等。ロスも独自の定義ではなく標準のものを使う
正則化やデータ拡張等のオプションを全て止めてみる
ファインチューニングを行おうとしているのであれば、元のモデルと前処理の方法が同じか確認する
入力が正しいか確認する
正則化、データ拡張、カスタムロス、複雑なモデル等、止めたオプションを徐々に加えていく
次に調べる事
1. データセットの問題
入力の中身が正しいか調べる
でたらめな入力を入れてみて症状が変わらなければネットワーク側の問題かもしれない
データローダーをチェックする。入力は問題無くてもネットワークに渡す過程に間違いがあるかも。ネットワーク側で受け取った入力をprintしてみる
入力と出力の対応が取れているか確認する。誤って入力だけシャッフルして入力と出力の対応がでたらめになるケースがある
入力と出力に関係が存在するか確認する。入力と出力の関係がランダムの場合は学習できない
出力のラベルミスが無いか確認する
データをシャッフルしてみる
ロス関数を工夫する等、不均衡データ問題を解消する(8 Tactics to Combat Imbalanced Classes in Your Machine Learning Dataset - Machine Learning Mastery)
十分な学習データがあるか?一般的にクラス分類では各クラスに1000個はデータが必要と言われている
バッチ内に複数のラベルが含まれているか確認する
大きすぎるバッチサイズは汎化性能を劣化させる([1609.04836] On Large-Batch Training for Deep Learning: Generalization Gap and Sharp Minima)(メモ:ここまで大きなバッチサイズで学習させることは無いから気にしなくて大丈夫そう)
Addition1. ネットワークの正しさを検証するため、MNIST, CIFAR10等既知のデータセットでまず試す
2. データ正規化/拡張
入力を標準化してみる
データ拡張した画像枚数が多すぎないか?データ拡張は正則化の効果があり、L2正則化やドロップアウトと組み合わせることでアンダーフィットする可能性がある
転移学習を行う場合、事前トレーニングしたモデルの前処理と同じ前処理を施しているかを確認する
学習用/検証用/テスト用画像への前処理を確認する。統計処理は学習用データに対して行い、その値を検証用/テスト用画像に用いる
3. 実装の問題
問題設定を簡単にする。例えばモデルがクラスと座標を予測しようとしているのであれば、クラスのみを予測するよう変更してみる等
Look for correct loss “at chance"(メモ:意味が分からず)
ロス関数にバグが無いか調べる(独自ロス関数を作成した場合)
ロス関数に正しい入力が渡っているか調べる
複数のロス関数を適用している場合、それらの重みを調べてみる
ロス値以外のメトリクスを観察してみる
自作のレイヤーがあればそれを調べてみる
意図せず重みを更新しない設定のレイヤーが無いか調べてみる
問題が複雑すぎる場合、レイヤーの数を増やしてみる
次元のミスを疑ってみる。入力サイズが(64, 64, 64)といった場合、どれが何を表すのかは容易に間違えてしまう
自作の最適化を適用している場合、そこを見直してみる
4. トレーニングの問題
重みの初期化方法を確認する。良く分からない場合、"Xavier"か"He"の初期化を利用する。
ハイパーパラメータを変えてみる
正則化を緩める。ドロップアウト、バッチノーマライゼーション、L2正則化等を弱めてみる。“Practical Deep Learning for Corders”では、まずはアンダーフィットをさせないようアドバイスしている
時間をかける。もしロス値が下がり続けているようであれば学習を続けてみる
学習からテストモードへ変更してみる。ディープラーニングフレームワークの中には学習モードとテストモードでバッチノーマライゼーションやドロップアウトの振る舞いが変わるものがある
学習を視覚化してみる。TensorboardやCrayonを利用してみる。活性化関数にあまりに大きな値が流れ込んでいる場合はバッチノーマライゼーションやELUsを試す。
異なる最適化手法を適用する
大きすぎる勾配、もしくは勾配消失が起こっていないか確認する
学習係数を変えてみる
NaNが出たら、①学習の初期段階でNaNが出たら学習係数を下げてみる ②ゼロ割もしくは自然対数に0以下が入力されていないか確認する ③ここを参考にする ④レイヤー毎にどこでNaNが発生したか確認する