論文へのリンク
[2303.00262] Collage Diffusion
[2303.00262] Collage Diffusion
[2301.09515] StyleGAN-T: Unlocking the Power of GANs for Fast Large-Scale Text-to-Image Synthesis
Axel Sauer12 Tero Karras2 Samuli Laine2 Andreas Geiger1 Timo Aila2
1 University of Tubingen, T ¨ ubingen AI Center ¨
2 NVIDIA. Correspondence to: Axel Sauer a.sauer@uni-tuebingen.de
2023/01/23
GANで高品質なtext-to-imagehttps://t.co/ZtAXenb3oF
— mi141 (@mi141) January 25, 2023
拡散モデルよりも非常に高速だぞという主張と、地味に生成画像間の内挿がスムーズにできることをアピールしてますね。GANの論文はお久しぶりなんですが、テキスト情報の使い方に興味があったのでチェックしました(続) pic.twitter.com/ozVqHS9SWS
プロジェクトページ sites.google.com
[2211.09800] InstructPix2Pix: Learning to Follow Image Editing Instructions
Tim Brooks Aleksander Holynski Alexei A. Efros
University of California, Berkeley
2022/11/17
プロジェクトページ
人間の指示から数秒で画像編集できる 「InstructPix2Pix」のコードが公開!
— やまかず (@Yamkaz) January 20, 2023
「ひまわりとバラを交換」「空に花火を追加」「雪が降っていたら?」などを入力すると画像が編集できる
Project: https://t.co/H3iY5qQpXm
code: https://t.co/sZueY6UG4R
demo: https://t.co/8bPVHiWkB3 pic.twitter.com/ox5pUUtOh8
高性能なPix2Pixを実現するために、Diffusion Modelをファインチューニング。
教師データは、GPT-3、Stable Diffusionを組み合わせて生成。
Instruct Pix2PixのGoogle Colab版があったので試してみた。凄いですが、簡単に細かいところまで思い通りとはなかなかいかないですねhttps://t.co/tQ9Izr5vAw pic.twitter.com/3XEX6wHtZi
— からあげ (@karaage0703) January 21, 2023
学習の考え方は、以下に近い部分があるかも
[2301.07093] GLIGEN: Open-Set Grounded Text-to-Image Generation
Hao Su, Jianwei Niu, Xuefeng Liu, Qingfeng Li, Jiahe Cui, Ji Wan
全員 Beihang University(北京大学)
2020/04/22
プロジェクトページ
物体の位置や説明を条件とした画像生成を、学習済み拡散モデルを活用して実現。条件情報は全てトークン化し、拡散モデルに追加したattention層を介して入力。この層だけfine-tune。https://t.co/11JFTKPA5j
— mi141 (@mi141) January 19, 2023
(引用されてないが)PITIに似てるが、条件の入れ方が異なる。https://t.co/e8rVszOxzJ pic.twitter.com/OmREZEOCOt
[2205.12952] Pretraining is All You Need for Image-to-Image Translation
Tengfei Wang1 , Ting Zhang2, Bo Zhang2, Hao Ouyang1, Dong Chen2, Qifeng Chen1, Fang Wen2
1 The Hong Kong University of Science and Technology
2 Microsoft Research Asia
2022/5/25
プロジェクトページ
基盤モデルを使って、I2Iの性能高めるみたいな?後で読む