2020-04-18

偽のLiDAR？「Pseudo-LiDAR」

論文

論文へのリンク

[1812.07179] Pseudo-LiDAR from Visual Depth Estimation: Bridging the Gap in 3D Object Detection for Autonomous Driving

[1906.06310] Pseudo-LiDAR++: Accurate Depth for 3D Object Detection in Autonomous Driving

筆者・所属機関

投稿日付

概要（一言まとめ）

後で読む

手法の概要

次に読む論文

自分なりのアウトプット

気になった英単語・英語表現

2020-03-21

混ぜたら精度アップ？不思議なData Augmentation手法「Mixup」

論文

論文へのリンク

[1710.09412] mixup: Beyond Empirical Risk Minimization

mixup: Beyond Empirical Risk Minimization

筆者・所属機関

Hongyi Zhang(MIT), Moustapha Cisse(FAIR), Yann N. Dauphin(FAIR), David Lopez-Paz(FAIR)

投稿日付

2017/10/25

概要（一言まとめ）

　高い性能を持つData Augmentation手法。adversarial examplesにも強い

手法の概要

　画像としては、以下のような画像同士がαブレンドされたような画像になる。

f:id:karaage:20200320101505p:plain

次に読む論文

自分なりのアウトプット

PyTorchでデータ水増し（Data Augmentation）する方法 - Qiita

気になった英単語・英語表現

empirical 経験的
alleviate 軽減する

2020-03-05

深層距離学習のメモ

技術メモ

　個人的メモ。いつかちゃんとまとめる。

モダンな深層距離学習 (deep metric learning) 手法: SphereFace, CosFace, ArcFace - Qiita

scikit-learn-contrib の Metric Learning を試す - u++の備忘録

FaceNet(顔認識)を動かしてみた - ハードウェア技術者のスキルアップ日誌

Metric Learning 入門 - copypasteの日記

【コード検証中】【精度対決】リアルな画像で異常検知 - Qiita

距離学習（Metric Learning）入門から実践まで｜はやぶさの技術ノート

Softmax関数をベースにした Deep Metric Learning が上手くいく理由 - Qiita

同じか否かを判定するための距離学習（Metric Learning） - Qiita

顔画像で試す画像特徴ベクトルの足し算引き算 - Qiita

Deep Metric Learning の定番⁈ Triplet Lossを徹底解説 - Qiita

2020-02-14

2019年時点での最強の画像判別ネットワーク「EfficientNet」

論文

論文へのリンク

[1905.11946] EfficientNet: Rethinking Model Scaling for Convolutional Neural Networks

筆者・所属機関

Mingxing Tan(Google Brain), Quoc V. Le(Google Brain)

投稿日付

2019/05/28

概要（一言まとめ）

　2019年時点でState of the artの性能を持ち、かつシンプルなネットワーク。

　Kaggleのコンペでもよく使われており、自分自身も以下の富士フィルムのコンペで多くの人が使っていたため知った。

富士フィルムコンペのまとめ - からログ

手法の概要

次に読む論文

EfficientDet: Scalable and Efficient Object Detection

自分なりのアウトプット

気になった英単語・英語表現

2020-02-11

富士フィルムコンペのまとめ

技術メモ

　富士フィルムで、写真の撮影された年代を当てるという面白いコンペがあったらしい。

　なんと、上位者の商品は、フジフィルムのX100Fだったらしい。めっちゃ良い…

FUJIFILM デジタルカメラ X100F シルバー X100F-S

発売日: 2017/02/23
メディア: エレクトロニクス

　成績上位者が、解法を解説してくれているのがありがたい。

　最近は、画像判別ではEfficientNetというのが強いっぽい。今度試してみようかな。

　次回のコンペのときは、ぜひ参加してフジのカメラをゲットしたいなと思った。レベル高そうなので、めちゃめちゃ難しそうだけど。

2020-02-06

高性能なSemantic SegmentationモデルGoogle謹製「DeepLabV3」「DeepLabV3+」

論文へのリンク

[1706.05587] Rethinking Atrous Convolution for Semantic Image Segmentation
DeepLabV3

[1802.02611] Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation
DeepLabV3+

筆者・所属機関

Liang-Chieh Chen(Google), Yukun Zhu(Google), George Papandreou(Google), Florian Schroff(Google), and Hartwig Adam(Google)

投稿日付

2017/6/17 (DeepLabV3)

2018/2/7 (DeepLabV3+)

概要（一言まとめ）

Image Segmentationのサーベイ論文 - からログで性能のよかったとされているGoogle製のモデル「DeepLabV3」と「DeepLabV3+」の論文

手法の概要

DeepLabV3

　恐らく、Atrous convolutionとSpatial pyramid poolingの組み合わせがキモなのではないかと思う。この組み合わせはASPP（Atrous Spatial Pyramid Pooling）モジュールと呼ばれて初代のDeepLabからあるもよう。

　Atrouns convolutionは以下のようなちょっと変わったCNN。

f:id:karaage:20200207110311p:plain:w640

　いまいちrateの定義が使われている場所によって数字が異なり分からない…dilation rateでスキップしているピクセルを表していると思うのだけど…

　最初に、このAtrouns convolutionを直列（カスケード）につないでrateとstrideを調整しようとしたのが以下のモデル。

f:id:karaage:20200207110324p:plain:w640

　でも、これだとセマンティックセグメンテーションにはストライドが悪さしてよくないらしい。

　なので、以下のように並列化（パラレル）したモデルにしている。

f:id:karaage:20200207110609p:plain:w640

　ここで、poolingをしているのは、Actrouns convolutionのフィルターがrateを大きくしていくとフィルタの問題点に対する対策らしい。ここがDeepLabV3での改善点のポイントのようだけど、ちょっと理解しきれなかった。

DeepLabV3+

　セマンティックセグメンテーションは、主にSPP(Spatial pyramid pooling）モジュールか、エンコーダー・デコーダー構造が使われて、DeepLabV3は、前者に属していたけどDeepLabV3+ではこの両方を組み合わせて性能改善したぜ（エンコーダー・デコーダー構造を取り入れた）というのがポイントの模様。

　あとは、Deep learning with depthwise separable convolutionsに、Xceptionを取り入れたらしい（こっちは、他の多くの最新のモデルで取り入れられているのを真似した様子）

　かなり色々な工夫をして精度を高めていることが分かった。よくこんなことを思いつくなという感じはするが、ベースとなるアイディア（ASPP）の他は、他の手法をうまく組み合わせたら性能良くなったという感もある。やはり発想には、うまく組み合わせるセンスに加えて、知識のベースラインが重要だなと実感した。

次に読む論文

[1610.02357] Xception: Deep Learning with Depthwise Separable Convolutions
depthwise separable convolutionsというのが、恐らくbackboneモデルのことだと思うが、あんまり分かってないので

自分なりのアウトプット

気になった英単語・英語表現

atrous 専門用語（atrouns畳み込み）。関連情報参照
backbone 背骨だが、ここでは専門用語として使っている。関連情報参照

2020-01-24

Image Segmentationのサーベイ論文

論文

論文へのリンク

[2001.05566] Image Segmentation Using Deep Learning: A Survey

筆者・所属機関

Shervin Minaee(Expedia Inc, and New York University), Yuri Boykov (University of Waterloo), Fatih Porikli(Australian National University, and Huawei), Antonio Plaza(University of Extremadura, Spain), Nasser Kehtarnavaz(University of Texas at Dallas), and Demetri Terzopoulos(University of California, Los Angeles)

投稿日付

2020/01/15

概要（一言まとめ）

セマンティックセグメンテーション、インスタンスセグメンテーションのサーベイ論文

手法の概要

f:id:karaage:20200124175816p:plain:w640
　ディープラーニングを使ったImage Segmentation手法の時系列的変化

　性能をみるとDeeplabV3が、最新のモデルにひけをとらず安定して良い性能を示している。

次に読む論文

高性能なSemantic SegmentationモデルGoogle謹製「DeepLabV3」「DeepLabV3+」 - からログ

自分なりのアウトプット

気になった英単語・英語表現

literature 文献
prominent 著名な
contemporary 現代の
quantitative 定量的

論文へのリンク

筆者・所属機関

投稿日付

概要（一言まとめ）

手法の概要

コメント

関連情報

次に読む論文

自分なりのアウトプット

気になった英単語・英語表現

論文へのリンク

筆者・所属機関

投稿日付

概要（一言まとめ）

手法の概要

コメント

関連情報

次に読む論文

自分なりのアウトプット

気になった英単語・英語表現

論文へのリンク

筆者・所属機関

投稿日付

概要（一言まとめ）

手法の概要

コメント

関連情報

次に読む論文

自分なりのアウトプット

気になった英単語・英語表現

論文へのリンク

筆者・所属機関

投稿日付

概要（一言まとめ）

手法の概要

DeepLabV3

DeepLabV3+

コメント

関連情報

次に読む論文

自分なりのアウトプット

気になった英単語・英語表現

論文へのリンク

筆者・所属機関

投稿日付

概要（一言まとめ）

手法の概要

コメント

関連情報

次に読む論文

自分なりのアウトプット

気になった英単語・英語表現