からログ

からあげが鳥並の頭で学んだことを記録する場所だよ

偽のLiDAR?「Pseudo-LiDAR」

論文へのリンク

[1812.07179] Pseudo-LiDAR from Visual Depth Estimation: Bridging the Gap in 3D Object Detection for Autonomous Driving

[1906.06310] Pseudo-LiDAR++: Accurate Depth for 3D Object Detection in Autonomous Driving

筆者・所属機関

投稿日付

概要(一言まとめ)

後で読む

手法の概要

コメント

関連情報

Pseudo-LiDAR from Visual Depth Estimation: Bridging the Gap in 3D Object Detection for Autonomous Driving - arutema47's blog

GitHub - mileyan/pseudo_lidar: (CVPR 2019) Pseudo-LiDAR from Visual Depth Estimation: Bridging the Gap in 3D Object Detection for Autonomous Driving

次に読む論文

自分なりのアウトプット

気になった英単語・英語表現

混ぜたら精度アップ?不思議なData Augmentation手法「Mixup」

論文へのリンク

[1710.09412] mixup: Beyond Empirical Risk Minimization

mixup: Beyond Empirical Risk Minimization

筆者・所属機関

Hongyi Zhang(MIT), Moustapha Cisse(FAIR), Yann N. Dauphin(FAIR), David Lopez-Paz(FAIR)

投稿日付

2017/10/25

概要(一言まとめ)

 高い性能を持つData Augmentation手法。adversarial examplesにも強い

手法の概要

 画像としては、以下のような画像同士がαブレンドされたような画像になる。

f:id:karaage:20200320101505p:plain

コメント

関連情報

Kerasでのmixup augmentation - statsuのblog

次に読む論文

自分なりのアウトプット

PyTorchでデータ水増し(Data Augmentation)する方法 - Qiita

気になった英単語・英語表現

  • empirical 経験的
  • alleviate 軽減する

深層距離学習のメモ

 個人的メモ。いつかちゃんとまとめる。

モダンな深層距離学習 (deep metric learning) 手法: SphereFace, CosFace, ArcFace - Qiita

scikit-learn-contrib の Metric Learning を試す - u++の備忘録

FaceNet(顔認識)を動かしてみた - ハードウェア技術者のスキルアップ日誌

Metric Learning 入門 - copypasteの日記

【コード検証中】【精度対決】リアルな画像で異常検知 - Qiita

距離学習(Metric Learning)入門から実践まで|はやぶさの技術ノート

Softmax関数をベースにした Deep Metric Learning が上手くいく理由 - Qiita

同じか否かを判定するための距離学習(Metric Learning) - Qiita

顔画像で試す画像特徴ベクトルの足し算引き算 - Qiita

Deep Metric Learning の定番⁈ Triplet Lossを徹底解説 - Qiita

2019年時点での最強の画像判別ネットワーク「EfficientNet」

論文へのリンク

[1905.11946] EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks

筆者・所属機関

Mingxing Tan(Google Brain), Quoc V. Le(Google Brain)

投稿日付

2019/05/28

概要(一言まとめ)

 2019年時点でState of the artの性能を持ち、かつシンプルなネットワーク。

 Kaggleのコンペでもよく使われており、自分自身も以下の富士フィルムのコンペで多くの人が使っていたため知った。

富士フィルムコンペのまとめ - からログ

手法の概要

コメント

関連情報

2019年最強の画像認識モデルEfficientNet解説 - Qiita

tpu/models/official/efficientnet at master · tensorflow/tpu · GitHub
オフィシャルのTensorFlow実装

GitHub - lukemelas/EfficientNet-PyTorch: A PyTorch implementation of EfficientNet
人気のあるPyTorch実装

GitHub - karaage0703/EfficientNet-PyTorch at custom

PyTorchで高精度・高性能のEfficientNetを利用する - のんびりしているエンジニアの日記

次に読む論文

EfficientDet: Scalable and Efficient Object Detection

自分なりのアウトプット

気になった英単語・英語表現

富士フィルムコンペのまとめ

 富士フィルムで、写真の撮影された年代を当てるという面白いコンペがあったらしい。

 なんと、上位者の商品は、フジフィルムのX100Fだったらしい。めっちゃ良い…

FUJIFILM デジタルカメラ X100F シルバー X100F-S

FUJIFILM デジタルカメラ X100F シルバー X100F-S

  • 発売日: 2017/02/23
  • メディア: エレクトロニクス

 成績上位者が、解法を解説してくれているのがありがたい。

 最近は、画像判別ではEfficientNetというのが強いっぽい。今度試してみようかな。

 次回のコンペのときは、ぜひ参加してフジのカメラをゲットしたいなと思った。レベル高そうなので、めちゃめちゃ難しそうだけど。

高性能なSemantic SegmentationモデルGoogle謹製「DeepLabV3」「DeepLabV3+」

論文へのリンク

[1706.05587] Rethinking Atrous Convolution for Semantic Image Segmentation
DeepLabV3

[1802.02611] Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation
DeepLabV3+

筆者・所属機関

Liang-Chieh Chen(Google), Yukun Zhu(Google), George Papandreou(Google), Florian Schroff(Google), and Hartwig Adam(Google)

投稿日付

2017/6/17 (DeepLabV3)

2018/2/7 (DeepLabV3+)

概要(一言まとめ)

Image Segmentationのサーベイ論文 - からログで性能のよかったとされているGoogle製のモデル「DeepLabV3」と「DeepLabV3+」の論文

手法の概要

DeepLabV3

 恐らく、Atrous convolutionとSpatial pyramid poolingの組み合わせがキモなのではないかと思う。この組み合わせはASPP(Atrous Spatial Pyramid Pooling)モジュールと呼ばれて初代のDeepLabからあるもよう。

 Atrouns convolutionは以下のようなちょっと変わったCNN。

f:id:karaage:20200207110311p:plain:w640

 いまいちrateの定義が使われている場所によって数字が異なり分からない…dilation rateでスキップしているピクセルを表していると思うのだけど…

 最初に、このAtrouns convolutionを直列(カスケード)につないでrateとstrideを調整しようとしたのが以下のモデル。

f:id:karaage:20200207110324p:plain:w640

 でも、これだとセマンティックセグメンテーションにはストライドが悪さしてよくないらしい。

 なので、以下のように並列化(パラレル)したモデルにしている。

f:id:karaage:20200207110609p:plain:w640

 ここで、poolingをしているのは、Actrouns convolutionのフィルターがrateを大きくしていくとフィルタの問題点に対する対策らしい。ここがDeepLabV3での改善点のポイントのようだけど、ちょっと理解しきれなかった。

DeepLabV3+

 セマンティックセグメンテーションは、主にSPP(Spatial pyramid pooling)モジュールか、エンコーダー・デコーダー構造が使われて、DeepLabV3は、前者に属していたけどDeepLabV3+ではこの両方を組み合わせて性能改善したぜ(エンコーダー・デコーダー構造を取り入れた)というのがポイントの模様。

 あとは、Deep learning with depthwise separable convolutionsに、Xceptionを取り入れたらしい(こっちは、他の多くの最新のモデルで取り入れられているのを真似した様子)

コメント

 かなり色々な工夫をして精度を高めていることが分かった。よくこんなことを思いつくなという感じはするが、ベースとなるアイディア(ASPP)の他は、他の手法をうまく組み合わせたら性能良くなったという感もある。やはり発想には、うまく組み合わせるセンスに加えて、知識のベースラインが重要だなと実感した。

 

関連情報

ディープラーニングにおけるセマンティックセグメンテーションのガイド2017年版 | POSTD

RefineNet - からログ

Chainerハンズオン:画像セグメンテーション

GitHub - mrgloom/awesome-semantic-segmentation: awesome-semantic-segmentation

セマンティック・セグメンテーションの基礎 MathWorks(pdf)

DeepLab v3+でオリジナルデータを学習してセグメンテーションできるようにする - Qiita

GitHub - jfzhang95/pytorch-deeplab-xception: DeepLab v3+ model in PyTorch. Support different backbones.
「DeepLabV3+」のPyTorch実装。少し試したけど、なかなか良さそう

Deeplabv3-ResNet101 | PyTorch
「DeepLabV3」のPyTorchオフィシャル実装。Google Colabページへのリンクもあり

物体検出、セグメンテーションをMask R-CNNで理解してみる (初心者) - Qiita

「画像認識をやってみました」の次にすること - Sigfossブログ

Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation(ECCV2018) - takuroooのブログ

Google Developers Japan: TensorFlow での DeepLab によるセマンティック イメージ セグメンテーション

【AI自動運転】Deeplabv3+を用いたセマンティックセグメンテーション | ALIS

Semantic segmentation 振り返り - Speaker Deck

次に読む論文

[1610.02357] Xception: Deep Learning with Depthwise Separable Convolutions
depthwise separable convolutionsというのが、恐らくbackboneモデルのことだと思うが、あんまり分かってないので

自分なりのアウトプット

気になった英単語・英語表現

  • atrous 専門用語(atrouns畳み込み)。関連情報参照
  • backbone 背骨だが、ここでは専門用語として使っている。関連情報参照

Image Segmentationのサーベイ論文

論文へのリンク

[2001.05566] Image Segmentation Using Deep Learning: A Survey

筆者・所属機関

Shervin Minaee(Expedia Inc, and New York University), Yuri Boykov (University of Waterloo), Fatih Porikli(Australian National University, and Huawei), Antonio Plaza(University of Extremadura, Spain), Nasser Kehtarnavaz(University of Texas at Dallas), and Demetri Terzopoulos(University of California, Los Angeles)

投稿日付

2020/01/15

概要(一言まとめ)

セマンティックセグメンテーション、インスタンスセグメンテーションのサーベイ論文

手法の概要

f:id:karaage:20200124175816p:plain:w640
 ディープラーニングを使ったImage Segmentation手法の時系列的変化

コメント

 性能をみるとDeeplabV3が、最新のモデルにひけをとらず安定して良い性能を示している。

関連情報

次に読む論文

高性能なSemantic SegmentationモデルGoogle謹製「DeepLabV3」「DeepLabV3+」 - からログ

自分なりのアウトプット

気になった英単語・英語表現

  • literature 文献
  • prominent 著名な
  • contemporary 現代の
  • quantitative 定量的