からログ

からあげが鳥並の頭で学んだことを記録する場所だよ

Open-Set Grounded Text-to-Image Generation

論文へのリンク

[2301.07093] GLIGEN: Open-Set Grounded Text-to-Image Generation

筆者・所属機関

Hao Su, Jianwei Niu, Xuefeng Liu, Qingfeng Li, Jiahe Cui, Ji Wan

全員 Beihang University（北京大学）

投稿日付

2020/04/22

概要（一言まとめ）

プロジェクトページ

物体の位置や説明を条件とした画像生成を、学習済み拡散モデルを活用して実現。条件情報は全てトークン化し、拡散モデルに追加したattention層を介して入力。この層だけfine-tune。https://t.co/11JFTKPA5j

（引用されてないが）PITIに似てるが、条件の入れ方が異なる。https://t.co/e8rVszOxzJ pic.twitter.com/OmREZEOCOt
— mi141 (@mi141) January 19, 2023

手法の概要

コメント

関連情報

次に読む論文

自分なりのアウトプット

気になった英単語・英語表現