論文へのリンク
[2211.03959] Pretraining in Deep Reinforcement Learning: A Survey *1
[2301.03044] A Survey on Transformers in Reinforcement Learning *2
筆者・所属機関
投稿日付
2022/11/8 *1
2023/1/8 *2
概要(一言まとめ)
サーベイ論文
[2211.03959] Pretraining in Deep Reinforcement Learning: A Survey *1
[2301.03044] A Survey on Transformers in Reinforcement Learning *2
2022/11/8 *1
2023/1/8 *2
サーベイ論文
(現時点での)結論に草www https://t.co/8GtbOTjca2 pic.twitter.com/Yg2EVjuuB3
— からあげ (@karaage0703) 2022年10月23日
なかなか面白い。
具体的な話が少ない??
実践的な内容と、経験豊富さを感じる。自分も実感していることと共通点多い。
1年で上がる精度は3%
3%の違い
アノテーションの難しさ
モデルの選定はハードウェア制約によって決まる
ディープラーニングの性能は、データのサイズD, モデルのパラメータ数N, 札束 Cmin (論文ではcompute budgetと表現)が支配的なことを実験的に示した身も蓋もない内容。この法則をデータスケーリング則(Scaling Law)と呼んでいる。
以下が詳しい。
OpenAIが発見したScaling Lawの秘密 - ディープラーニングブログ
「テクニックなんて無駄で、データ集めてでかいモデルでガンガン学習させた方が勝ちなんじゃ!」と宣言しているような内容。
言われてみれば、それはそうかもしれないけど、それだけだと寂しいよね、とは思ったりする。
[1909.09148] Data Augmentation Revisited: Rethinking the Distribution Gap between Clean and Augmented Data
Zhuoxun He 1 Lingxi Xie 2 Xin Chen 3 Ya Zhang 1 Yanfeng Wang 1 Qi Tian 2
1 Shanghai Jiao Tong University 2Huawei Noahs Ark Labc 3Tongji University
2019/09/11
Data Augmentationを最後の数epochs、減らして(無しで)学習させることで性能があがる
Data Augmentation正則化としてとらえて、汎化誤差と経験損失の観点で性能向上の理由を説明?
Data Augmentationを正則化として捉え、汎化性能を向上させる反面、経験損失が増加するリスクがあると考察。
— goto yuta (@goto_yuta_) January 20, 2021
最初に大量にData AugmentationしてData Augmentationを減らして学習することで、汎化誤差と経験損失のバランスが取れ、精度が向上。
現実にもよく使われる印象。https://t.co/6wRMsPxu5V
[2101.04442] Joint Demosaicking and Denoising in the Wild: The Case of Training Under Ground Truth Uncertainty
Jierun Chen, Song Wen, S.-H. Gary Chan
Department of Computer Science and EngineeringThe Hong Kong University of Science and Technology, Hong Kong, China
2021/01/12
ニューラルネットを用いたRAW画像からのデモザイクとノイズ除去を行いState-of-the-art達成。
Twitterを引用。
RAW画像からのデモザイクとノイズ除去を行う。Dataset中のGround Truthも画像処理プロセス(ISP)を通っているので劣化しているのでそのまま学習するのは問題であると指摘し真のGTからの劣化過程をモデル化し真のGTらしさ(尤度)を最大化するようにLossを定式化したのがキモ。https://t.co/QxutdlNbVC pic.twitter.com/9Pr13YgJj8
— Teppei Kurita (@kuritateppei) January 26, 2021
RAW現像の手法、評価手法が興味深かった。なかなか深い世界。
個人的に面白いなと思ったのが、RAWデータ取得のプロセスを、 xをノイズ入ったデータ、Aをモザイク処理、zをクリーンな画像、nをノイズとして以下のシンプルな数式で現わすことができること。
デモザイク処理は、Aの逆の処理でデノイズがnを減らすための処理となる。
以下は、動画からの引用です。
Instance segmentationにより、ロボットがモノを掴めるようになる(PFNのお片付けロボットの場合)
レンダリング結果と目標画像の差をlossとして、バックプロパゲーションしていき、最適化する。
これを応用すると、シミュレーションを構築して、大量の教師データを取得することが可能となる。
参考:
ものすごいマシンパワーを使って、シミュレータを使った分散強化学習を行っている。