からログ

からあげが鳥並の頭で学んだことを記録する場所だよ

Tramsformerを取り入れた素早く手軽な物体検出「DETR」

論文へのリンク

End-to-End Object Detection with Transformers

筆者・所属機関

Nicolas Carion, Francisco Massa, Gabriel Synnaeve, Nicolas Usunier, Alexander Kirillov, Sergey Zagoruyko

全員 Facebook

投稿日付

2020/05/27

概要(一言まとめ)

 BERTなどの自然言語処理で目覚ましい成果を上げつつあるモデルのベースとなるTransformerを、物体検出に適応した研究。構造は以下となる。

f:id:karaage:20200610171243p:plain

 COCOデータセットでFaster R-CNNの精度を上回ったとのこと。

手法の概要

 transformerを取り入れる他、以下2つの技術が特徴的

  • Bipartite Matching Loss
  • Parallel Decoding

コメント

 精度的には、Faster R-CNN程度ということは、まだまだなのかなという印象だが、Transformerを物体検出に適応して結果を出しているのは凄い。論文の検出も、チャンピオンデータかもしれないけど、かなり使えそうな印象。

 Google Colabで手軽に推論を試せるのも好印象。

 Transformerは、あんまり理解できてなくて、そこまで重要な技術でもないのではないかと思っていたけど、ちょっと認識を改めた方が良いかもしれない。

関連情報

demo_detr.ipynb

How to use Facebook's DETR object detection algorithm in Python(YouTube)

次に読む論文

自分なりのアウトプット

気になった英単語・英語表現

  • bipartite 相互の