結構昔に読んだきりになっていたので、軽くメモです。
気になったきっかけは以下あたりです。
感想は、面白かったのですが、自分はSFはそこまで得意じゃないかもというしょうもないものでした(笑)
[1811.10154] Stop Explaining Black Box Machine Learning Models for High Stakes Decisions and Use Interpretable Models Instead
Cynthia Rudin(Duke University)
2018/11/26
Dmitry Ulyanov(Skoltech), Andrea Vedaldi(University of Oxford), Victor Lempitsky(Skoltech)
2018/04/05
CNNモデルに対して、入力をノイズ、出力の教師画像をノイズ画像、欠損画像、ボケた画像にして学習を進めたとき、学習途中で、教師画像より高品質(ノイズレス、欠損無し、超解像)画像が得られるという驚くべき内容。
[1911.06091] EdgeNet: Balancing Accuracy and Performance for Edge-based Convolutional Neural Network Object Detectors
Anonymous authors (匿名でのレビュー中)
2019/11/09
Data Augmentationの1手法。論文より引用した以下の画像が分かりやすい。ほぼこれが全て。
以下が詳しいので、ここでは省略。
データオーギュメンテーション、どんどん新しい手法が出てくるなというのが印象。
なんとなく、この辺りの前処理はドメインによって最適な手法が異なる気がするので、今のデータセットに特化した手法が出ているような気がしなくもない(それを言ったら、ネットワーク構造もそうなのだけど)。
そのうち更に決定版的なものが出てくるのだろうか?
上の図は以下から引用
Generation of Photorealistic QR Codes
今はこんなことまでできちゃうのね。誤り訂正機能を活用しているのかな?
[1911.06091] EdgeNet: Balancing Accuracy and Performance for Edge-based Convolutional Neural Network Object Detectors
George Plastiras(University of Cyprus), Christos Kyrkou(University of Cyprus), Theocharis Theocharides(University of Cyprus)
2019/11/14
高解像度の動画を性能を下げずに、高速度・低電力でディープラーニングによる物体検出をする手法
エッジデバイス向けで、UAVなどを想定しているよう。
論文より引用
上図のように、3ステージに分けているのがポイント。
1ステージは通常のCNNによる物体検出で、3ステージはLucas-Kanade法による昔からある手法でのトラッキングなので、ポイントは2ステージ。
1ステージで検出した対象が、コーナーの4隅に来るような5種類のサイズのタイルを生成する。これにより1ステージで検出した物体1つに対して20個のタイルが生成される。
これらのタイルから、Effective Processing Time(EPT)と呼ばれる、物体を効率よく検出できる指標を元に1番良いものを選ぶ。最終的には、すべての検出した対象をカバーするようなタイルの組み合わせを選ぶ。
それらのタイルに対して、更にCNNによる検出をかけることで、性能と速度の向上の両立を狙う。
タイルの工夫は、3回くらい読み直して理解できた(と思う)。なかなか面白いなと思った。考え方、何かに応用できそう。