論文へのリンク
[1912.02292] Deep Double Descent: Where Bigger Models and More Data Hurt
筆者・所属機関
Preetum Nakkiran(Harvard University), Gal Kaplun(Harvard University), Yamini Bansal(Harvard University), Tristan Yang(Harvard University), Boaz Barak(Harvard University), Ilya Sutskever(OpenAI)
全員 Beihang University(北京大学)
投稿日付
2019/12/04
概要(一言まとめ)
大きいディープラーニングのモデルで、パフォーマンスが低下(過学習)となった後、さらに学習をし続けるとまた性能が上がる現象(double-descent)をeffective model complexityという指数を定義して説明
手法の概要
コメント
宝くじ仮説と同じ話かと思ったら、どうも同じではないらしい。
なんとなく同じことを言っているような気がするけど…うーむ、分からん。
関連情報
論文読み:DEEP DOUBLE DESCENT - Qiita