からログ

からあげが鳥並の頭で学んだことを記録する場所だよ

ディープラーニング CDLEの動画

なかなか面白い。

CDLE 勉強会 #1 世界初の水質判定AI「DeepLiquid(ディープリキッド)」

具体的な話が少ない??

DeepLiquidでやっていること

  • 水質の認識
  • からあげを揚げるタイミング認識

イノベーションの話

  • イノベーションは技術革新でなく新結合
  • ディープラーニング x ○○ の組み合わせ
  • 企業のドメイン知識

開発のコツ

  • 精度向上にはノウハウが必要

CDLE 勉強会 #3 「AIの社会実装を進めるための技術的ポイント」

実践的な内容と、経験豊富さを感じる。自分も実感していることと共通点多い。

性能向上手法の体系化

f:id:karaage:20210406165750p:plain
 1年で上がる精度は3%

f:id:karaage:20210406165917p:plain
 3%の違い

オープンにされているデータセットでも、不正確なアノテーションは多い

f:id:karaage:20210406170421p:plain
 アノテーションの難しさ

ハードウェアの制約を考慮

 モデルの選定はハードウェア制約によって決まる

f:id:karaage:20210406172923p:plain:w640

QA

  • カメラは星取表で比較
  • モデルの選定は、メンテナンスされているかも注視する
  • 使いまわせるモデル、CenterNetは物体検知+姿勢推定
  • アノテーションはダブルチェック
  • 効率の良いアノテーション。ツールの使い方、能動学習
  • アノテーションルールの共有・体系化(統一することが大事)

ディープラーングの性能はデータ集めて札束で殴り続けると向上し続ける!?「Scaling Law」

論文へのリンク

  1. [2001.08361] Scaling Laws for Neural Language Models
  2. [2010.14701] Scaling Laws for Autoregressive Generative Modeling

筆者・所属機関

  1. Jared Kaplan(Johns Hopkins University, OpenAI), Sam McCandlish(Open AI), ...
  2. Tom Henighan(Open AI), Jared Kaplan(Johns Hopkins University, OpenAI), ...

投稿日付

  1. 2020/01/23
  2. 2020/10/28

概要(一言まとめ)

 ディープラーニングの性能は、データのサイズD, モデルのパラメータ数N, 札束 Cmin (論文ではcompute budgetと表現)が支配的なことを実験的に示した身も蓋もない内容。この法則をデータスケーリング則(Scaling Law)と呼んでいる。

手法の概要

 以下が詳しい。

OpenAIが発見したScaling Lawの秘密 - ディープラーニングブログ

コメント

「テクニックなんて無駄で、データ集めてでかいモデルでガンガン学習させた方が勝ちなんじゃ!」と宣言しているような内容。

言われてみれば、それはそうかもしれないけど、それだけだと寂しいよね、とは思ったりする。

関連情報

次に読む論文

自分なりのアウトプット

気になった英単語・英語表現

DataAugmentaionは2回やれ

論文へのリンク

[1909.09148] Data Augmentation Revisited: Rethinking the Distribution Gap between Clean and Augmented Data

筆者・所属機関

Zhuoxun He 1 Lingxi Xie 2 Xin Chen 3 Ya Zhang 1 Yanfeng Wang 1 Qi Tian 2

1 Shanghai Jiao Tong University 2Huawei Noahs Ark Labc 3Tongji University

投稿日付

2019/09/11

概要(一言まとめ)

Data Augmentationを最後の数epochs、減らして(無しで)学習させることで性能があがる

手法の概要

Data Augmentation正則化としてとらえて、汎化誤差と経験損失の観点で性能向上の理由を説明?

コメント

関連情報

次に読む論文

自分なりのアウトプット

気になった英単語・英語表現

  • empirical 経験的

ニューラルネットワークを用いたRAW現像

論文へのリンク

[2101.04442] Joint Demosaicking and Denoising in the Wild: The Case of Training Under Ground Truth Uncertainty

筆者・所属機関

Jierun Chen, Song Wen, S.-H. Gary Chan

Department of Computer Science and EngineeringThe Hong Kong University of Science and Technology, Hong Kong, China

投稿日付

2021/01/12

概要(一言まとめ)

ニューラルネットを用いたRAW画像からのデモザイクとノイズ除去を行いState-of-the-art達成。

手法の概要

 Twitterを引用。

コメント

 RAW現像の手法、評価手法が興味深かった。なかなか深い世界。

 個人的に面白いなと思ったのが、RAWデータ取得のプロセスを、 xをノイズ入ったデータ、Aをモザイク処理、zをクリーンな画像、nをノイズとして以下のシンプルな数式で現わすことができること。

 x = Az + n

 デモザイク処理は、Aの逆の処理でデノイズがnを減らすための処理となる。

関連情報

次に読む論文

自分なりのアウトプット

気になった英単語・英語表現

  • conjugate 活用・共役
  • interpolating 補間

PFNのSI2020での講演動画「深層学習とロボティクス」

動画

 以下は、動画からの引用です。

画像認識

 Instance segmentationにより、ロボットがモノを掴めるようになる(PFNのお片付けロボットの場合) f:id:karaage:20210106163429p:plain

微分可能レンダラー

 レンダリング結果と目標画像の差をlossとして、バックプロパゲーションしていき、最適化する。

f:id:karaage:20210106163935p:plain

 これを応用すると、シミュレーションを構築して、大量の教師データを取得することが可能となる。

参考:

強化学習

 ものすごいマシンパワーを使って、シミュレータを使った分散強化学習を行っている。

f:id:karaage:20210106170302p:plain

くら寿司がラズパイでエッジAIを活用中

 メモ。くら寿司はPepperをやめて、ラズパイにしたのだろうか。

 ラズパイ + Google Coralの組み合わせのようだけど、どこらへんにGoogle Coralを使っているのだろう。

 QRコードを読み込むだけなら、ラズパイで十分な気がする。他にディープラーニングで画像認識しているのだろうか。

 Google Coral使っていないからよく分からないけど、Google Cloudとの便利な連携機能があったりするのだろうか?

画像認識にもTransformerの波!?SoTAモデル「ViT」

論文へのリンク

An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale | OpenReview

筆者・所属機関

Anonymous authors

Paper under double-blind review

目隠しレビュー中のため、著者非公開らしい。でも、きっとFacebookでしょ?

投稿日付

2020/xx/xx

記載を探せなかった

概要(一言まとめ)

 自然言語処理で高い性能を出す「Transformer」を画像認識のタスクに適用し、SoTAの性能達成

手法の概要

 モデルの概要は以下の通り。

f:id:karaage:20201013150123p:plain

 画像は畳み込みは用いず、小さいパッチに分割する。パッチは、畳み込みでなくFlattenしてベクトル化。

 そのあとは、ほぼTransformer(BERT)

 事前学習のデータが少ないと性能が出ないらしい。

 詳細は以下が分かりやすい。

画像認識の大革命。AI界で話題爆発中の「Vision Transformer」を解説! - Qiita

コメント

 CNNがTransoformer(Attention)に置き換わっていくのだろうか…直感的にはCNNの方が良さそうなのだけど。

 タスクにも依存しそうな気はするので試してみたい。Kaggleで使われだしたら本物だと思う。

 事前学習のデータ量が膨大でないと性能がでないというのも気になる。分かりやすい解説を書いている記事では

畳み込みが持つ「局所性」のようなバイアスはデータ数が少ない場合には有効だが、データ数が大きい場合にはむしろ不要となるということです。これはおもしろいですね。

 と書いているけど「うーん」という感じ。

関連情報

An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale · Issue #1906 · arXivTimes/arXivTimes · GitHub

画像認識の大革命。AI界で話題爆発中の「Vision Transformer」を解説! - Qiita

Attentionのメカニズム - からログ

GitHub - lucidrains/vit-pytorch: Implementation of Vision Transformer, a simple way to achieve SOTA in vision classification with only a single transformer encoder, in Pytorch

次に読む論文

自分なりのアウトプット

気になった英単語・英語表現