からログ

からあげが鳥並の頭で学んだことを記録する場所だよ

AIでリアルな音楽生成「Jukebox」

論文へのリンク

Jukebox: A Generative Model for Music

筆者・所属機関

Prafulla Dhariwal * 1, Heewoo Jun * 1, Christine Payne * 1, Jong Wook Kim * 1, Alec Radford * 1 ,Ilya Sutskever * 1

  • 1 OpenAI, San Francisco. Correspondence

投稿日付

2020/04/30

概要(一言まとめ)

 VQ-VAEや複数のSOTAの手法を組み合わせ、膨大な計算リソースを用いてAIでリアルな音楽を生成。

手法の概要

 3種類の異なる解像度に圧縮して、それぞれVQ-VAEにかけて、中間表現を獲得

f:id:karaage:20200503215905p:plain

 複数のSOTAの手法を組み合わせて、歌詞の抽出・歌詞の位置特定などを実施。さらに、膨大な計算資源で学習している。

 学習に関しては、billion parametersや2 weeksとか4 weeksという凄い数字が出ている。

The upsamplers have one billion parameters and are trained on 128 V100s for 2 weeks, and the top-level prior has 5 billion parameters and is trained on 512 V100s for 4 weeks. We use Adam with learning rate 0.00015 and weight decay of 0.002. For lyrics conditioning, we reuse the prior and add a small encoder, after which we train the model on 512 V100s for 2 weeks.

コメント

 白金興業FMで知ったもの。こりゃ凄いな…としか言えない。以前、Deep JazzというJazzのMIDIをベースにRNNでJazzを自動生成とかするソフトあったけど、あれとはまた全然レベルが違う。

関連情報

【ボタ山話#11】音楽版DeepFakeの誕生?OpenAIのJukeBox解説 | 白金鉱業.FM

Jukebox

次に読む論文

自分なりのアウトプット

気になった英単語・英語表現