論文へのリンク
- [2001.08361] Scaling Laws for Neural Language Models
- [2010.14701] Scaling Laws for Autoregressive Generative Modeling
筆者・所属機関
- Jared Kaplan(Johns Hopkins University, OpenAI), Sam McCandlish(Open AI), ...
- Tom Henighan(Open AI), Jared Kaplan(Johns Hopkins University, OpenAI), ...
投稿日付
- 2020/01/23
- 2020/10/28
概要(一言まとめ)
ディープラーニングの性能は、データのサイズD, モデルのパラメータ数N, 札束 Cmin (論文ではcompute budgetと表現)が支配的なことを実験的に示した身も蓋もない内容。この法則をデータスケーリング則(Scaling Law)と呼んでいる。
手法の概要
以下が詳しい。
OpenAIが発見したScaling Lawの秘密 - ディープラーニングブログ
コメント
「テクニックなんて無駄で、データ集めてでかいモデルでガンガン学習させた方が勝ちなんじゃ!」と宣言しているような内容。
言われてみれば、それはそうかもしれないけど、それだけだと寂しいよね、とは思ったりする。