要は初期値から遠く離れることを許せばそれだけ過学習しやすいというだけの話なのですが,カーネル法の場合は低周波成分の方が速く収束するので(filterの効果がある),高周波成分が大きく出てくる前に終わらせる効果があります.
-
- Show this threadThanks. Twitter will use this to make your timeline better. UndoUndo
-
-
-
最適化の人にとって最適化する関数が最適なほど良いというのは大前提なので,そうじゃない定式化は背中がかゆいということかいうご指摘だったかと. early stopping の効果を,等価な正則化項とかに変換するとかはあるんですか?
-
正則化を陽に入れて目的関数を設計すべしという話は私も同意見です。(計算量が少なくて済むというメリットはありますが。)カーネル法の場合はほぼリッジ正則化でブースティングでもl1正則化に対応したりしますが、常に単純な正則化項と等価になるとは限らないと思います。
-
やはり難しいんですね
End of conversation
New conversation -
Loading seems to be taking a while.
Twitter may be over capacity or experiencing a momentary hiccup. Try again or visit Twitter Status for more information.