からログ

からあげが鳥並の頭で学んだことを記録する場所だよ

2019年時点での最強の画像判別ネットワーク「EfficientNet」

論文へのリンク

[1905.11946] EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks

筆者・所属機関

Mingxing Tan(Google Brain), Quoc V. Le(Google Brain)

投稿日付

2019/05/28

概要(一言まとめ)

 2019年時点でState of the artの性能を持ち、かつシンプルなネットワーク。

 Kaggleのコンペでもよく使われており、自分自身も以下の富士フィルムのコンペで多くの人が使っていたため知った。

富士フィルムコンペのまとめ - からログ

手法の概要

コメント

関連情報

2019年最強の画像認識モデルEfficientNet解説 - Qiita

tpu/models/official/efficientnet at master · tensorflow/tpu · GitHub
オフィシャルのTensorFlow実装

GitHub - lukemelas/EfficientNet-PyTorch: A PyTorch implementation of EfficientNet
人気のあるPyTorch実装

GitHub - karaage0703/EfficientNet-PyTorch at custom

次に読む論文

自分なりのアウトプット

気になった英単語・英語表現

富士フィルムコンペのまとめ

 富士フィルムで、写真の撮影された年代を当てるという面白いコンペがあったらしい。

 なんと、上位者の商品は、フジフィルムのX100Fだったらしい。めっちゃ良い…

FUJIFILM デジタルカメラ X100F シルバー X100F-S

FUJIFILM デジタルカメラ X100F シルバー X100F-S

  • 発売日: 2017/02/23
  • メディア: エレクトロニクス

 成績上位者が、解法を解説してくれているのがありがたい。

 最近は、画像判別ではEfficientNetというのが強いっぽい。今度試してみようかな。

 次回のコンペのときは、ぜひ参加してフジのカメラをゲットしたいなと思った。レベル高そうなので、めちゃめちゃ難しそうだけど。

高性能なSemantic SegmentationモデルGoogle謹製「DeepLabV3」「DeepLabV3+」

論文へのリンク

[1706.05587] Rethinking Atrous Convolution for Semantic Image Segmentation
DeepLabV3

[1802.02611] Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation
DeepLabV3+

筆者・所属機関

Liang-Chieh Chen(Google), Yukun Zhu(Google), George Papandreou(Google), Florian Schroff(Google), and Hartwig Adam(Google)

投稿日付

2017/6/17 (DeepLabV3)

2018/2/7 (DeepLabV3+)

概要(一言まとめ)

Image Segmentationのサーベイ論文 - からログで性能のよかったとされているGoogle製のモデル「DeepLabV3」と「DeepLabV3+」の論文

手法の概要

DeepLabV3

 恐らく、Atrous convolutionとSpatial pyramid poolingの組み合わせがキモなのではないかと思う。この組み合わせはASPP(Atrous Spatial Pyramid Pooling)モジュールと呼ばれて初代のDeepLabからあるもよう。

 Atrouns convolutionは以下のようなちょっと変わったCNN。

f:id:karaage:20200207110311p:plain:w640

 いまいちrateの定義が使われている場所によって数字が異なり分からない…dilation rateでスキップしているピクセルを表していると思うのだけど…

 最初に、このAtrouns convolutionを直列(カスケード)につないでrateとstrideを調整しようとしたのが以下のモデル。

f:id:karaage:20200207110324p:plain:w640

 でも、これだとセマンティックセグメンテーションにはストライドが悪さしてよくないらしい。

 なので、以下のように並列化(パラレル)したモデルにしている。

f:id:karaage:20200207110609p:plain:w640

 ここで、poolingをしているのは、Actrouns convolutionのフィルターがrateを大きくしていくとフィルタの問題点に対する対策らしい。ここがDeepLabV3での改善点のポイントのようだけど、ちょっと理解しきれなかった。

DeepLabV3+

 セマンティックセグメンテーションは、主にSPP(Spatial pyramid pooling)モジュールか、エンコーダー・デコーダー構造が使われて、DeepLabV3は、前者に属していたけどDeepLabV3+ではこの両方を組み合わせて性能改善したぜ(エンコーダー・デコーダー構造を取り入れた)というのがポイントの模様。

 あとは、Deep learning with depthwise separable convolutionsに、Xceptionを取り入れたらしい(こっちは、他の多くの最新のモデルで取り入れられているのを真似した様子)

コメント

 かなり色々な工夫をして精度を高めていることが分かった。よくこんなことを思いつくなという感じはするが、ベースとなるアイディア(ASPP)の他は、他の手法をうまく組み合わせたら性能良くなったという感もある。やはり発想には、うまく組み合わせるセンスに加えて、知識のベースラインが重要だなと実感した。

 

関連情報

ディープラーニングにおけるセマンティックセグメンテーションのガイド2017年版 | POSTD

RefineNet - からログ

Chainerハンズオン:画像セグメンテーション

GitHub - mrgloom/awesome-semantic-segmentation: awesome-semantic-segmentation

セマンティック・セグメンテーションの基礎 MathWorks(pdf)

DeepLab v3+でオリジナルデータを学習してセグメンテーションできるようにする - Qiita

GitHub - jfzhang95/pytorch-deeplab-xception: DeepLab v3+ model in PyTorch. Support different backbones.
「DeepLabV3+」のPyTorch実装。少し試したけど、なかなか良さそう

Deeplabv3-ResNet101 | PyTorch
「DeepLabV3」のPyTorchオフィシャル実装。Google Colabページへのリンクもあり

物体検出、セグメンテーションをMask R-CNNで理解してみる (初心者) - Qiita

「画像認識をやってみました」の次にすること - Sigfossブログ

Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation(ECCV2018) - takuroooのブログ

Google Developers Japan: TensorFlow での DeepLab によるセマンティック イメージ セグメンテーション

【AI自動運転】Deeplabv3+を用いたセマンティックセグメンテーション | ALIS

次に読む論文

[1610.02357] Xception: Deep Learning with Depthwise Separable Convolutions
depthwise separable convolutionsというのが、恐らくbackboneモデルのことだと思うが、あんまり分かってないので

自分なりのアウトプット

気になった英単語・英語表現

  • atrous 専門用語(atrouns畳み込み)。関連情報参照
  • backbone 背骨だが、ここでは専門用語として使っている。関連情報参照

Image Segmentationのサーベイ論文

論文へのリンク

[2001.05566] Image Segmentation Using Deep Learning: A Survey

筆者・所属機関

Shervin Minaee(Expedia Inc, and New York University), Yuri Boykov (University of Waterloo), Fatih Porikli(Australian National University, and Huawei), Antonio Plaza(University of Extremadura, Spain), Nasser Kehtarnavaz(University of Texas at Dallas), and Demetri Terzopoulos(University of California, Los Angeles)

投稿日付

2020/01/15

概要(一言まとめ)

セマンティックセグメンテーション、インスタンスセグメンテーションのサーベイ論文

手法の概要

f:id:karaage:20200124175816p:plain:w640
 ディープラーニングを使ったImage Segmentation手法の時系列的変化

コメント

 性能をみるとDeeplabV3が、最新のモデルにひけをとらず安定して良い性能を示している。

関連情報

次に読む論文

高性能なSemantic SegmentationモデルGoogle謹製「DeepLabV3」「DeepLabV3+」 - からログ

自分なりのアウトプット

気になった英単語・英語表現

  • literature 文献
  • prominent 著名な
  • contemporary 現代の
  • quantitative 定量的

Center Lossでディープな顔認識

論文へのリンク

A Discriminative Feature Learning Approach for Deep Face Recognition

筆者・所属機関

Yandong Wen (1), Kaipeng Zhang (1), Zhifeng Li (1), and Yu Qiao (1,2)

  1. Shenzhen Key Lab of Computer Vision and Pattern Recognition Shenzhen Institutes of Advanced Technology, CAS, Shenzhen, China
  2. The Chinese University of Hong Kong, Sha Tin, Hong Kong

投稿日付

?

概要(一言まとめ)

Center Lossの導入で、識別が難しい顔認識のタスクでstate-of-the-artを達成

手法の概要

Center Lossという新しい損失関数を提案。学習時に、各クラスのCenterのアップデート(更新)と、特徴量ベクトルとクラスのCenterの差の最小化を同時に行う。

CNNに簡単に追加実装でき、性能も良い。

コメント

関連情報

【深層距離学習】Center Lossを徹底解説 -Pytorchによる実践あり-|はやぶさの技術ノート

Metric Learning 入門 - copypasteの日記

分類器で学習できるMetric learningを簡潔なコードで試す - Qiita

モダンな深層距離学習 (deep metric learning) 手法: SphereFace, CosFace, ArcFace - Qiita

次に読む論文

自分なりのアウトプット

気になった英単語・英語表現

  • discriminative 区別する
  • penalize 罰する
  • prone 〜しがち
  • impractical 非現実的

話題のSF小説「三体」読みました

 結構昔に読んだきりになっていたので、軽くメモです。

 気になったきっかけは以下あたりです。

 感想は、面白かったのですが、自分はSFはそこまで得意じゃないかもというしょうもないものでした(笑)

三体

三体

  • 作者:劉 慈欣
  • 出版社/メーカー: 早川書房
  • 発売日: 2019/07/04
  • メディア: ハードカバー

ブラックボックスなディープラーニングを説明する試みは無駄?

論文へのリンク

[1811.10154] Stop Explaining Black Box Machine Learning Models for High Stakes Decisions and Use Interpretable Models Instead

筆者・所属機関

Cynthia Rudin(Duke University)

投稿日付

2018/11/26

概要(一言まとめ)

手法の概要

コメント

関連情報

次に読む論文

自分なりのアウトプット

気になった英単語・英語表現