からログ

からあげが鳥並の頭で学んだことを記録する場所だよ

GANで高品質なtext-to-image「Stylegan-t」

論文へのリンク

[2301.09515] StyleGAN-T: Unlocking the Power of GANs for Fast Large-Scale Text-to-Image Synthesis

筆者・所属機関

Axel Sauer12 Tero Karras2 Samuli Laine2 Andreas Geiger1 Timo Aila2

1 University of Tubingen, T ¨ ubingen AI Center ¨
2 NVIDIA. Correspondence to: Axel Sauer a.sauer@uni-tuebingen.de

投稿日付

2023/01/23

概要(一言まとめ)

プロジェクトページ sites.google.com

手法の概要

コメント

関連情報

次に読む論文

www.microsoft.com

自分なりのアウトプット

気になった英単語・英語表現

InstructPix2Pix: Learning to Follow Image Editing Instructions

論文へのリンク

[2211.09800] InstructPix2Pix: Learning to Follow Image Editing Instructions

筆者・所属機関

Tim Brooks Aleksander Holynski Alexei A. Efros

University of California, Berkeley

投稿日付

2022/11/17

概要(一言まとめ)

プロジェクトページ

www.timothybrooks.com

手法の概要

高性能なPix2Pixを実現するために、Diffusion Modelをファインチューニング。

教師データは、GPT-3、Stable Diffusionを組み合わせて生成。

コメント

関連情報

次に読む論文

自分なりのアウトプット

学習の考え方は、以下に近い部分があるかも

karaage.hatenadiary.jp

気になった英単語・英語表現

Open-Set Grounded Text-to-Image Generation

論文へのリンク

[2301.07093] GLIGEN: Open-Set Grounded Text-to-Image Generation

筆者・所属機関

Hao Su, Jianwei Niu, Xuefeng Liu, Qingfeng Li, Jiahe Cui, Ji Wan

全員 Beihang University(北京大学)

投稿日付

2020/04/22

概要(一言まとめ)

プロジェクトページ

手法の概要

コメント

関連情報

次に読む論文

自分なりのアウトプット

気になった英単語・英語表現

Pretraining is All You Need for Image-to-Image Translation

論文へのリンク

[2205.12952] Pretraining is All You Need for Image-to-Image Translation

筆者・所属機関

Tengfei Wang1 , Ting Zhang2, Bo Zhang2, Hao Ouyang1, Dong Chen2, Qifeng Chen1, Fang Wen2

1 The Hong Kong University of Science and Technology
2 Microsoft Research Asia

投稿日付

2022/5/25

概要(一言まとめ)

 プロジェクトページ

手法の概要

 基盤モデルを使って、I2Iの性能高めるみたいな?後で読む

コメント

関連情報

次に読む論文

自分なりのアウトプット

気になった英単語・英語表現

強化学習のサーベイ論文

論文へのリンク

[2211.03959] Pretraining in Deep Reinforcement Learning: A Survey *1

[2301.03044] A Survey on Transformers in Reinforcement Learning *2

筆者・所属機関

投稿日付

2022/11/8 *1

2023/1/8 *2

概要(一言まとめ)

サーベイ論文

手法の概要

コメント

関連情報

次に読む論文

自分なりのアウトプット

気になった英単語・英語表現

ディープラーニング CDLEの動画

なかなか面白い。

CDLE 勉強会 #1 世界初の水質判定AI「DeepLiquid(ディープリキッド)」

具体的な話が少ない??

DeepLiquidでやっていること

  • 水質の認識
  • からあげを揚げるタイミング認識

イノベーションの話

  • イノベーションは技術革新でなく新結合
  • ディープラーニング x ○○ の組み合わせ
  • 企業のドメイン知識

開発のコツ

  • 精度向上にはノウハウが必要

CDLE 勉強会 #3 「AIの社会実装を進めるための技術的ポイント」

実践的な内容と、経験豊富さを感じる。自分も実感していることと共通点多い。

性能向上手法の体系化

f:id:karaage:20210406165750p:plain
 1年で上がる精度は3%

f:id:karaage:20210406165917p:plain
 3%の違い

オープンにされているデータセットでも、不正確なアノテーションは多い

f:id:karaage:20210406170421p:plain
 アノテーションの難しさ

ハードウェアの制約を考慮

 モデルの選定はハードウェア制約によって決まる

f:id:karaage:20210406172923p:plain:w640

QA

  • カメラは星取表で比較
  • モデルの選定は、メンテナンスされているかも注視する
  • 使いまわせるモデル、CenterNetは物体検知+姿勢推定
  • アノテーションはダブルチェック
  • 効率の良いアノテーション。ツールの使い方、能動学習
  • アノテーションルールの共有・体系化(統一することが大事)