深層学習メモ

交差エントロピー誤差

交差エントロピー誤差は正解ラベルの確率だけをみる。ほかはいっさい見ない。

正解ラベルの確率が最大になるように学習する。正解ラベル以外の確率がどんなかたちになっていようと学習にはいっさい関係ない(ゼロがかけられてゼロになる)。

正解ラベルの確率のlogをとってマイナスをつけたものが交差エントロピー誤差。

-log(正解ラベルの確率(0～1))。これはグラフをみればわかるが、0に近づくと急速に大きくなるし、0から離れると急速に小さくなる。1になると最小値の0をとる。

勾配降下法は、微分してそちらほうこうに重みをアップデートするんだよねー、と抽象的にしか理解しておらず、具体的にどう実装するのかは理解していなかった。が、ようやく腑に落ちた。

勾配降下法は分解すると以下のような手順になる。

個人的に理解するためのポイントがふたつあって、ひとつは重みをずらす前とずらした後の2回予測を行うこと。教科書だと損失関数の勾配(微分)を引いて重みを更新することをひとつの式で説明されていてよくわからなかった。

ふたつめは重みの個数分、データを投入して勾配を計算して重みを各個撃破で更新していくこと。すべての重みを同時にずらすのではなく、ひとつずつ重みをずらして計算し更新していくのだ。

もうすこし詳しくメモっておくと、各行列W、バイアスのベクトルbの中身の要素ごとにべつべつに勾配を計算する。すべての要素からおなじ微少値動かしては正確な偏微分はできないはず。

以上が基本となるが、計算量が多いので実際には誤差逆伝搬法で計算するのだ。誤差逆伝搬法の基本となるのは微分の連鎖律。

誤差逆伝搬法(バックプロパゲーション)のポイントをメモ。

手順としては

重みの微分が入力に等しいというのは式から明らかだけど、なんか直観的に理解しづらいなぁ。まぁ覚えてしまおう。