からログ

からあげが鳥並の頭で学んだことを記録する場所だよ

画像認識にもTransformerの波!?SoTAモデル「ViT」

論文へのリンク

An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale | OpenReview

筆者・所属機関

Anonymous authors

Paper under double-blind review

目隠しレビュー中のため、著者非公開らしい。でも、きっとFacebookでしょ?

投稿日付

2020/xx/xx

記載を探せなかった

概要(一言まとめ)

 自然言語処理で高い性能を出す「Transformer」を画像認識のタスクに適用し、SoTAの性能達成

手法の概要

 モデルの概要は以下の通り。

f:id:karaage:20201013150123p:plain

 画像は畳み込みは用いず、小さいパッチに分割する。パッチは、畳み込みでなくFlattenしてベクトル化。

 そのあとは、ほぼTransformer(BERT)

 事前学習のデータが少ないと性能が出ないらしい。

 詳細は以下が分かりやすい。

画像認識の大革命。AI界で話題爆発中の「Vision Transformer」を解説! - Qiita

コメント

 CNNがTransoformer(Attention)に置き換わっていくのだろうか…直感的にはCNNの方が良さそうなのだけど。

 タスクにも依存しそうな気はするので試してみたい。Kaggleで使われだしたら本物だと思う。

 事前学習のデータ量が膨大でないと性能がでないというのも気になる。分かりやすい解説を書いている記事では

畳み込みが持つ「局所性」のようなバイアスはデータ数が少ない場合には有効だが、データ数が大きい場合にはむしろ不要となるということです。これはおもしろいですね。

 と書いているけど「うーん」という感じ。

関連情報

An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale · Issue #1906 · arXivTimes/arXivTimes · GitHub

画像認識の大革命。AI界で話題爆発中の「Vision Transformer」を解説! - Qiita

Attentionのメカニズム - からログ

GitHub - lucidrains/vit-pytorch: Implementation of Vision Transformer, a simple way to achieve SOTA in vision classification with only a single transformer encoder, in Pytorch

次に読む論文

自分なりのアウトプット

気になった英単語・英語表現