論文へのリンク
An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale | OpenReview
筆者・所属機関
Anonymous authors
Paper under double-blind review
目隠しレビュー中のため、著者非公開らしい。でも、きっとFacebookでしょ?
投稿日付
2020/xx/xx
記載を探せなかった
概要(一言まとめ)
自然言語処理で高い性能を出す「Transformer」を画像認識のタスクに適用し、SoTAの性能達成
手法の概要
モデルの概要は以下の通り。
画像は畳み込みは用いず、小さいパッチに分割する。パッチは、畳み込みでなくFlattenしてベクトル化。
そのあとは、ほぼTransformer(BERT)
事前学習のデータが少ないと性能が出ないらしい。
詳細は以下が分かりやすい。
画像認識の大革命。AI界で話題爆発中の「Vision Transformer」を解説! - Qiita
コメント
CNNがTransoformer(Attention)に置き換わっていくのだろうか…直感的にはCNNの方が良さそうなのだけど。
タスクにも依存しそうな気はするので試してみたい。Kaggleで使われだしたら本物だと思う。
事前学習のデータ量が膨大でないと性能がでないというのも気になる。分かりやすい解説を書いている記事では
畳み込みが持つ「局所性」のようなバイアスはデータ数が少ない場合には有効だが、データ数が大きい場合にはむしろ不要となるということです。これはおもしろいですね。
と書いているけど「うーん」という感じ。
関連情報
An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale · Issue #1906 · arXivTimes/arXivTimes · GitHub
画像認識の大革命。AI界で話題爆発中の「Vision Transformer」を解説! - Qiita
GitHub - lucidrains/vit-pytorch: Implementation of Vision Transformer, a simple way to achieve SOTA in vision classification with only a single transformer encoder, in Pytorch