2020-02-14

2019年時点での最強の画像判別ネットワーク「EfficientNet」

論文

論文へのリンク

[1905.11946] EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks

筆者・所属機関

Mingxing Tan(Google Brain), Quoc V. Le(Google Brain)

投稿日付

2019/05/28

概要（一言まとめ）

　2019年時点でState of the artの性能を持ち、かつシンプルなネットワーク。

　Kaggleのコンペでもよく使われており、自分自身も以下の富士フィルムのコンペで多くの人が使っていたため知った。

富士フィルムコンペのまとめ - からログ

手法の概要

次に読む論文

EfficientDet: Scalable and Efficient Object Detection

自分なりのアウトプット

気になった英単語・英語表現

2020-02-11

富士フィルムコンペのまとめ

技術メモ

　富士フィルムで、写真の撮影された年代を当てるという面白いコンペがあったらしい。

　なんと、上位者の商品は、フジフィルムのX100Fだったらしい。めっちゃ良い…

FUJIFILM デジタルカメラ X100F シルバー X100F-S

発売日: 2017/02/23
メディア: エレクトロニクス

　成績上位者が、解法を解説してくれているのがありがたい。

　最近は、画像判別ではEfficientNetというのが強いっぽい。今度試してみようかな。

　次回のコンペのときは、ぜひ参加してフジのカメラをゲットしたいなと思った。レベル高そうなので、めちゃめちゃ難しそうだけど。

2020-02-06

高性能なSemantic SegmentationモデルGoogle謹製「DeepLabV3」「DeepLabV3+」

論文へのリンク

[1706.05587] Rethinking Atrous Convolution for Semantic Image Segmentation
DeepLabV3

[1802.02611] Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation
DeepLabV3+

筆者・所属機関

Liang-Chieh Chen(Google), Yukun Zhu(Google), George Papandreou(Google), Florian Schroff(Google), and Hartwig Adam(Google)

投稿日付

2017/6/17 (DeepLabV3)

2018/2/7 (DeepLabV3+)

概要（一言まとめ）

Image Segmentationのサーベイ論文 - からログで性能のよかったとされているGoogle製のモデル「DeepLabV3」と「DeepLabV3+」の論文

手法の概要

DeepLabV3

　恐らく、Atrous convolutionとSpatial pyramid poolingの組み合わせがキモなのではないかと思う。この組み合わせはASPP（Atrous Spatial Pyramid Pooling）モジュールと呼ばれて初代のDeepLabからあるもよう。

　Atrouns convolutionは以下のようなちょっと変わったCNN。

f:id:karaage:20200207110311p:plain:w640

　いまいちrateの定義が使われている場所によって数字が異なり分からない…dilation rateでスキップしているピクセルを表していると思うのだけど…

　最初に、このAtrouns convolutionを直列（カスケード）につないでrateとstrideを調整しようとしたのが以下のモデル。

f:id:karaage:20200207110324p:plain:w640

　でも、これだとセマンティックセグメンテーションにはストライドが悪さしてよくないらしい。

　なので、以下のように並列化（パラレル）したモデルにしている。

f:id:karaage:20200207110609p:plain:w640

　ここで、poolingをしているのは、Actrouns convolutionのフィルターがrateを大きくしていくとフィルタの問題点に対する対策らしい。ここがDeepLabV3での改善点のポイントのようだけど、ちょっと理解しきれなかった。

DeepLabV3+

　セマンティックセグメンテーションは、主にSPP(Spatial pyramid pooling）モジュールか、エンコーダー・デコーダー構造が使われて、DeepLabV3は、前者に属していたけどDeepLabV3+ではこの両方を組み合わせて性能改善したぜ（エンコーダー・デコーダー構造を取り入れた）というのがポイントの模様。

　あとは、Deep learning with depthwise separable convolutionsに、Xceptionを取り入れたらしい（こっちは、他の多くの最新のモデルで取り入れられているのを真似した様子）

　かなり色々な工夫をして精度を高めていることが分かった。よくこんなことを思いつくなという感じはするが、ベースとなるアイディア（ASPP）の他は、他の手法をうまく組み合わせたら性能良くなったという感もある。やはり発想には、うまく組み合わせるセンスに加えて、知識のベースラインが重要だなと実感した。

次に読む論文

[1610.02357] Xception: Deep Learning with Depthwise Separable Convolutions
depthwise separable convolutionsというのが、恐らくbackboneモデルのことだと思うが、あんまり分かってないので

自分なりのアウトプット

気になった英単語・英語表現

atrous 専門用語（atrouns畳み込み）。関連情報参照
backbone 背骨だが、ここでは専門用語として使っている。関連情報参照

2020-01-24

Image Segmentationのサーベイ論文

論文

論文へのリンク

[2001.05566] Image Segmentation Using Deep Learning: A Survey

筆者・所属機関

Shervin Minaee(Expedia Inc, and New York University), Yuri Boykov (University of Waterloo), Fatih Porikli(Australian National University, and Huawei), Antonio Plaza(University of Extremadura, Spain), Nasser Kehtarnavaz(University of Texas at Dallas), and Demetri Terzopoulos(University of California, Los Angeles)

投稿日付

2020/01/15

概要（一言まとめ）

セマンティックセグメンテーション、インスタンスセグメンテーションのサーベイ論文

手法の概要

f:id:karaage:20200124175816p:plain:w640
　ディープラーニングを使ったImage Segmentation手法の時系列的変化

　性能をみるとDeeplabV3が、最新のモデルにひけをとらず安定して良い性能を示している。

次に読む論文

高性能なSemantic SegmentationモデルGoogle謹製「DeepLabV3」「DeepLabV3+」 - からログ

自分なりのアウトプット

気になった英単語・英語表現

literature 文献
prominent 著名な
contemporary 現代の
quantitative 定量的

2020-01-14

Center Lossでディープな顔認識

論文

論文へのリンク

A Discriminative Feature Learning Approach for Deep Face Recognition

筆者・所属機関

Yandong Wen (1), Kaipeng Zhang (1), Zhifeng Li (1), and Yu Qiao (1,2)

Shenzhen Key Lab of Computer Vision and Pattern Recognition Shenzhen Institutes of Advanced Technology, CAS, Shenzhen, China
The Chinese University of Hong Kong, Sha Tin, Hong Kong