冒頭に
損失関数を基準として、その値が最も小さくなる重みパラメータを探し出すということが学習の目的
とあるように、「微分して勾配を求めて重みのパラメータを求める」、という工程を実装しました。
確率的勾配降下法(stochastic gradient descent, SGD)と呼ばれているとのこと。
訓練データ(教師データ)とテストデータにおいては、過学習(overfitting)に注意。
ニューラルネットワーク(ディープラーニング)においては、「特徴量をヒトが考えて機械学習をさせる」のではなく、特徴量すら機械に学ばせるというアプローチをとっているのが印象的でした。