からログ

からあげが鳥並の頭で学んだことを記録する場所だよ

ノイズか?シグナルか?それが問題だ

論文へのリンク

[2006.09994] Noise or Signal: The Role of Image Backgrounds in Object Recognition

筆者・所属機関

Kai Xiao, Logan Engstrom, Andrew Ilyas, Aleksander Madry

全員 MIT

投稿日付

2020/06/17

概要(一言まとめ)

 物体認識のとき、ニューラルネットワークモデルがノイズ(背景)とシグナルをどう見分けているかを調査した内容。

手法の概要

 色々な手法を用いて、実験的に調べているらしい(後で追記)

コメント

関連情報

次に読む論文

自分なりのアウトプット

気になった英単語・英語表現

  • disentangling もつれをほどく

Tramsformerを取り入れた素早く手軽な物体検出「DETR」

論文へのリンク

End-to-End Object Detection with Transformers

筆者・所属機関

Nicolas Carion, Francisco Massa, Gabriel Synnaeve, Nicolas Usunier, Alexander Kirillov, Sergey Zagoruyko

全員 Facebook

投稿日付

2020/05/27

概要(一言まとめ)

 BERTなどの自然言語処理で目覚ましい成果を上げつつあるモデルのベースとなるTransformerを、物体検出に適応した研究。構造は以下となる。

f:id:karaage:20200610171243p:plain

 COCOデータセットでFaster R-CNNの精度を上回ったとのこと。

手法の概要

 transformerを取り入れる他、以下2つの技術が特徴的

  • Bipartite Matching Loss
  • Parallel Decoding

コメント

 精度的には、Faster R-CNN程度ということは、まだまだなのかなという印象だが、Transformerを物体検出に適応して結果を出しているのは凄い。論文の検出も、チャンピオンデータかもしれないけど、かなり使えそうな印象。

 Google Colabで手軽に推論を試せるのも好印象。

 Transformerは、あんまり理解できてなくて、そこまで重要な技術でもないのではないかと思っていたけど、ちょっと認識を改めた方が良いかもしれない。

関連情報

demo_detr.ipynb

How to use Facebook's DETR object detection algorithm in Python(YouTube)

次に読む論文

自分なりのアウトプット

気になった英単語・英語表現

  • bipartite 相互の

植物の病気判定のデータセット

論文へのリンク

[1911.10317] PlantDoc: A Dataset for Visual Plant Disease Detection

筆者・所属機関

Davinder Singh, Naman Jain, Pranjali Jain, Pratik Kayal Sudhakar Kumawat, Nipun Batra

Indian Institute of Technology Gandhinagar, Gujarat, India 382 355

投稿日付

2019/11/23

概要(一言まとめ)

13種類の植物の合計2,598のデータを17クラスの病気に分類したデータセットを作成。アノテーションには300時間程度かけているとのこと。

手法の概要

 既に植物のデータセットとしてPlantVillage dataset(PVD)があるが、以下の図のように、実際のフィールドでの写真とは乖離のあるデータとなっているのに対して、実際のフィールドに近いデータセットをつくったとのこと。

f:id:karaage:20200526111250p:plain

 また、データセットに対して複数のモデルで画像判別と物体検出のタスクを評価している。

コメント

インドは35%の作物を病気で失っているという書き出しが結構衝撃的だった。

性能は、物体判別のACCで70%、物体検出のmAP(at 50% IoU)で38%と高くはない。2,598のデータを17クラスだと、1クラスあたりのデータは200ないくらいなので、全然データが足りないのではないかなという印象だが、EfficientNet使ってDataAugmentation駆使すればもう少しはあげれそうな気はする。

関連情報

GitHub - pratikkayal/PlantDoc-Object-Detection-Dataset

次に読む論文

自分なりのアウトプット

気になった英単語・英語表現

ディープラーニングの物体検出のサーベイ論文まとめ

物体検出のサーベイ論文

 サーベイ論文だけでもたくさんありすぎでは?

[1907.09408] A Survey of Deep Learning-based Object Detection

[1908.03673] Recent Advances in Deep Learning for Object Detection

[1809.02165] Deep Learning for Generic Object Detection: A Survey

関連記事

NVIDIA GTC2020 Keynoteメモ

GTC2020

 新型コロナの影響で今年はオンライン開催。YouTubeで公開されている

Part 1: CEO Jensen Huang Introduces Data-Center-Scale Accelerated Computing

CEOのKeynote。

  • 最初はCOVID-19の話
  • NVIDIAの技術の活用例のイメージビデオ

Part 2: NVIDIA RTX – A New Era for Computer Graphics

Part 3: GPU Accelerating HPC and Scientific Computing

Part 4: NVIDIA Merlin for Recommendation Systems

Part 5: NVIDIA Jarvis for Conversational AI

Jarvis(アイアンマンから?)という会話するAIの紹介。

Jensen Huangとの会話シーンは必見。

Part 6: NVIDIA A100 Data Center GPU Based on NVIDIA Ampere Architecture

 以下ブログ記事が詳しい。

Part 7: NVIDIA EGX A100 Converged Accelerator and Isaac Robotics Platform

Part 8: NVIDIA Ampere Architecture Comes to Orin for Autonomous Vehicles

Part 9: Conclusion

AIでリアルな音楽生成「Jukebox」

論文へのリンク

Jukebox: A Generative Model for Music

筆者・所属機関

Prafulla Dhariwal * 1, Heewoo Jun * 1, Christine Payne * 1, Jong Wook Kim * 1, Alec Radford * 1 ,Ilya Sutskever * 1

  • 1 OpenAI, San Francisco. Correspondence

投稿日付

2020/04/30

概要(一言まとめ)

 VQ-VAEや複数のSOTAの手法を組み合わせ、膨大な計算リソースを用いてAIでリアルな音楽を生成。

手法の概要

 3種類の異なる解像度に圧縮して、それぞれVQ-VAEにかけて、中間表現を獲得

f:id:karaage:20200503215905p:plain

 複数のSOTAの手法を組み合わせて、歌詞の抽出・歌詞の位置特定などを実施。さらに、膨大な計算資源で学習している。

 学習に関しては、billion parametersや2 weeksとか4 weeksという凄い数字が出ている。

The upsamplers have one billion parameters and are trained on 128 V100s for 2 weeks, and the top-level prior has 5 billion parameters and is trained on 512 V100s for 4 weeks. We use Adam with learning rate 0.00015 and weight decay of 0.002. For lyrics conditioning, we reuse the prior and add a small encoder, after which we train the model on 512 V100s for 2 weeks.

コメント

 白金興業FMで知ったもの。こりゃ凄いな…としか言えない。以前、Deep JazzというJazzのMIDIをベースにRNNでJazzを自動生成とかするソフトあったけど、あれとはまた全然レベルが違う。

関連情報

【ボタ山話#11】音楽版DeepFakeの誕生?OpenAIのJukeBox解説 | 白金鉱業.FM

Jukebox

次に読む論文

自分なりのアウトプット

気になった英単語・英語表現

中学生・高校生のための人工知能の教養講座(YouTubeリンク)

  • そもそもコンピューターは知能の大体を目的として作られた。人工知能のつくるためのもの
  • コンパイラは翻訳機。プログライング言語からマシン語への変換
  • 人間の使う言語から言語の変換(翻訳)は難しい