からログ

からあげが鳥並の頭で学んだことを記録する場所だよ

NVIDIA GTC2020 Keynoteメモ

GTC2020

 新型コロナの影響で今年はオンライン開催。YouTubeで公開されている

Part 1: CEO Jensen Huang Introduces Data-Center-Scale Accelerated Computing

CEOのKeynote。

  • 最初はCOVID-19の話
  • NVIDIAの技術の活用例のイメージビデオ

Part 2: NVIDIA RTX – A New Era for Computer Graphics

Part 3: GPU Accelerating HPC and Scientific Computing

Part 4: NVIDIA Merlin for Recommendation Systems

Part 5: NVIDIA Jarvis for Conversational AI

Jarvis(アイアンマンから?)という会話するAIの紹介。

Jensen Huangとの会話シーンは必見。

Part 6: NVIDIA A100 Data Center GPU Based on NVIDIA Ampere Architecture

 以下ブログ記事が詳しい。

Part 7: NVIDIA EGX A100 Converged Accelerator and Isaac Robotics Platform

Part 8: NVIDIA Ampere Architecture Comes to Orin for Autonomous Vehicles

Part 9: Conclusion

AIでリアルな音楽生成「Jukebox」

論文へのリンク

Jukebox: A Generative Model for Music

筆者・所属機関

Prafulla Dhariwal * 1, Heewoo Jun * 1, Christine Payne * 1, Jong Wook Kim * 1, Alec Radford * 1 ,Ilya Sutskever * 1

  • 1 OpenAI, San Francisco. Correspondence

投稿日付

2020/04/30

概要(一言まとめ)

 VQ-VAEや複数のSOTAの手法を組み合わせ、膨大な計算リソースを用いてAIでリアルな音楽を生成。

手法の概要

 3種類の異なる解像度に圧縮して、それぞれVQ-VAEにかけて、中間表現を獲得

f:id:karaage:20200503215905p:plain

 複数のSOTAの手法を組み合わせて、歌詞の抽出・歌詞の位置特定などを実施。さらに、膨大な計算資源で学習している。

 学習に関しては、billion parametersや2 weeksとか4 weeksという凄い数字が出ている。

The upsamplers have one billion parameters and are trained on 128 V100s for 2 weeks, and the top-level prior has 5 billion parameters and is trained on 512 V100s for 4 weeks. We use Adam with learning rate 0.00015 and weight decay of 0.002. For lyrics conditioning, we reuse the prior and add a small encoder, after which we train the model on 512 V100s for 2 weeks.

コメント

 白金興業FMで知ったもの。こりゃ凄いな…としか言えない。以前、Deep JazzというJazzのMIDIをベースにRNNでJazzを自動生成とかするソフトあったけど、あれとはまた全然レベルが違う。

関連情報

【ボタ山話#11】音楽版DeepFakeの誕生?OpenAIのJukeBox解説 | 白金鉱業.FM

Jukebox

次に読む論文

自分なりのアウトプット

気になった英単語・英語表現

強化学習のメモ

 何かに使いたいと思いながら、何にもできていない強化学習。個人的なメモをまとめておいて一回封印します。

まとめ的なリンク

自分が読んだ強化学習の資料達 - 下町データサイエンティストの日常

GitHub - komi1230/Resume

深層強化学習の最前線 - Speaker Deck 

ゼロから始める深層強化学習(NLP2018講演資料)/ Introduction of Deep Reinforcement Learni…

深層強化学習アルゴリズムまとめ - Qiita

実践例

GitHub - chainer/chainerrl: ChainerRL is a deep reinforcement learning library built on top of Chainer.

Jetson Nanoで動く深層強化学習を使ったラジコン向け自動運転ソフトウェアの紹介 - masato-ka's diary

メモ

誰でも深層強化学習のスキルを身に付けて活用できるための教育リソース「Spinning Up」をOpenAIが発表 - GIGAZINE

VRChatで強化学習しよう - らくとあいすの備忘録

まとめ

 強化学習むずかしい…というかなかなか活用できそうにない。

読んだ本

 読んだけど、何もアウトプットできずに終わってしまった本。もう一冊くらい読んでみようかな…

参考文献は少年ジャンプ「Deep Bleach」と話題の「MangaGAN」

論文へのリンク

[2004.10634] Unpaired Photo-to-manga Translation Based on The Methodology of Manga Drawing

筆者・所属機関

Hao Su, Jianwei Niu, Xuefeng Liu, Qingfeng Li, Jiahe Cui, Ji Wan

全員 Beihang University(北京大学)

投稿日付

2020/04/22

概要(一言まとめ)

 以下の画像がほぼ全て

f:id:karaage:20200424000229p:plain

 ペアを不要とするGANで写真から漫画に変換。MangaGAN-BLというデータセットもアカデミックユースで提供予定。

手法の概要

 位置的な変換をする(Geometric Transformation Network)と外観を変換する(Appearance Transformation Network)2つのブランチで変化して、合成する。

f:id:karaage:20200424002002p:plain

コメント

関連情報

次に読む論文

自分なりのアウトプット

気になった英単語・英語表現

  • endow 与える
  • exaggeration 過言

Dysonの開発したディープラーニングを活用した革新的なリアルタイムSLAM技術「DeepFactors」

論文へのリンク

[2001.05049] DeepFactors: Real-Time Probabilistic Dense Monocular SLAM

筆者・所属機関

Jan Czarnowski, Tristan Laidlow, Ronald Clark, and Andrew J. Davison

全員所属はDyson Robotics Laboratory, Imperial College London

注:Dyson Robotics LaboratoryはDysonがイギリスのImperial College London内に設立した研究所

投稿日付

2020/01/14

概要(一言まとめ)

 SLAM技術の名付け親であるAndrew J. Davisonによる高速・高精度なVisual SLAM技術。

 日経Robotics 5月号で特集が組まれている。

手法の概要

 DNNのモデルを3つ用いている。

f:id:karaage:20200420141059p:plain

 図の一番下が、Auto Encoderのモデルで距離画像を学習させている。そのとき、生じる真ん中の特徴量c(論文内でcodeと呼ばれる)が重要。

 真ん中のFeature Networkは、RGB画像を元に解像度ごとに特徴ベクトルを生成して、Auto Encoderに条件付きで結合している。

 一番上のネットワークは、codeの初期値を推定するためのネットワーク。

 DNNの重みは、事前にオフラインで学習されるがcode自体はオンラインで最適化される。

コメント

 オートエンコーダの特徴量をオンラインで最適化して、精度を高めているのが面白い。

 Feature Networkが、条件付きでAuto Endoerに結合しているところは、pix2pix(GAN)っぽくて面白い(勘違い?)

関連情報

次に読む論文

自分なりのアウトプット

気になった英単語・英語表現

RGB-D画像から3D画像生成

論文へのリンク

3D Photography using Context-aware Layered Depth Inpainting(Google Drive)

[2004.04727] 3D Photography using Context-aware Layered Depth Inpainting

筆者・所属機関

Meng-Li Shih(Virginia Tech, National Tsing Hua University), Shih-Yang Su(Virginia Tech), Johannes Kopf(Facebook), Jia-Bin Huang(Virginia Tech)

投稿日付

2020/04/09

概要(一言まとめ)

 RGB-D画像から高精度な3D画像を生成する。

手法の概要

コメント

関連情報

画像から簡単に精巧な3D写真が作成できる論文が公開される、実際に3D写真を生成することも可能 - GIGAZINE

次に読む論文

自分なりのアウトプット

気になった英単語・英語表現

  • inpainting 修復する