からログ

からあげが鳥並の頭で学んだことを記録する場所だよ

google pixel で使われてるポートレートモードのぼかしアルゴリズム解説

[1806.04171] Synthetic Depth-of-Field with a Single-Camera Mobile Phone

 これ。ようやくPodcast聴いたけど、かなり面白かった。個人的に、ヘーと思ったことメモ

  • デプス情報を元に、奥からレイヤー化していって、奥から順に描画していく
  • 奥行きのレイヤーは、そのままだと計算量多いので5段階(数字の記憶はあいまい)くらいにしている
  • 何度もHDR的処理をしている(トーンマッピング?)
  • ボケのところは、解像度落として計算しているけど、ボケのないところでは、元画像のフル解像度を使っている
  • 境界の色にじみを防ぐために、距離に応じてフィルタの係数を変えている
  • 最後に、わざとノイズを加える処理をしている

京都大学集中講義:機械学習と深層学習の数理と応用

2018年度講義情報ページ

http://ibis.t.u-tokyo.ac.jp/suzuki/lecture/2018/kyoto/Kyoto_01.pdf

http://ibis.t.u-tokyo.ac.jp/suzuki/lecture/2018/kyoto/Kyoto_02.pdf

Grasp2Vec

論文へのリンク

[1811.06964] Grasp2Vec: Learning Object Representations from Self-Supervised Grasping

筆者・所属機関

Eric Jang(Google), Coline Devin(Berkeley), Vincent Vanhoucke(Google), and Sergey Levine(Google, Berkeley)

投稿日付

2018/11/16

概要(一言まとめ)

手法の概要

コメント

関連情報

人間の指示なしにロボットが自分で動いて学習できるアルゴリズム「Grasp2Vec」をGoogleが発表 - GIGAZINE

Google AI Blog: Grasp2Vec: Learning Object Representations from Self-Supervised Grasping

grasp2vec

Grasp2Vec: Learning Object Representations from Self-Supervised Grasping · Issue #1031 · arXivTimes/arXivTimes · GitHub

次に読む論文

自分なりのアウトプット

気になった英単語・英語表現

物体認識のための畳み込みニューラルネットワークの研究動向(サーベイ論文)

論文へのリンク

物体認識のための畳み込みニューラルネットワークの研究動向

筆者・所属機関

内田 祐介(DeNA)、山下 隆義(中部大学)

投稿日付

2019/03(早期公開)

概要(一言まとめ)

ディープラーニングのCNNを使ったネットワークの変遷や性能比較をまとめたサーベイ論文。めちゃめちゃ有用な予感なので、しっかり読む。あとで追記。

画像認識を主に、様々なネットワークを極力同一条件で性能比較を行っている。

 以下のスライドも合わせて参照

手法の概要

サーベイ論文のため省略

コメント

ネットワークの改善により、性能は向上しているが、性能自体かなり飽和している印象を受けた。タスクの実用上は、1~2%の違いを求めるより、推論の速度や開発期間の方が重要なケースもあると思う。

また、比較もあくまで実験的なものなので、ハイパーパラメータのチューニングによっては、ネットワークによる性能が逆転することもあるのではないかなという印象も受けた。

もちろん、学習がうまくいっているとき、ネットワークの変更による性能差はこの程度ということを知る意味では、非常に有用な論文であると思う。

関連情報

MPRG : 機械知覚&ロボティクスグループ/中部大学

畳み込みニューラルネットワークに関するサーベイ論文が電子情報通信学会論文誌に採録されました | DeNA×AI

次に読む論文

自分なりのアウトプット

気になった英単語・英語表現

汎用的な画風変換の革命児「pix2pix」

論文へのリンク

[1611.07004] Image-to-Image Translation with Conditional Adversarial Networks

筆者・所属機関

Phillip Isola(Berkeley), Jun-Yan Zhu(Berkeley), Tinghui Zhou(Berkeley), Alexei A. Efros(Berkeley)

投稿日付

2016/11/21

概要(一言まとめ)

ディープラーニングを用いた、汎用的な画像変換。pix2pixとして有名。TensorFlowをはじめとした多くの実装例がある

手法の概要

 CGAN(条件付きGAN)を使っている。「変換前の画像とGeneratorが生成した画像のペア」と「変換前の画像と変換後の画像のペア」という画像を条件として学習させる。

f:id:karaage:20200330183256p:plain

 Generatorにはセマンティックセグメンテーションに使われるU-Netを使用

f:id:karaage:20200330183820p:plain
 U-Netのネットワーク

コメント

 U-Netの代わりに別のネットワーク(DeepLabV3+とか)使ったら性能が向上したりするのだろうか?それかもうやられてる?

関連情報

GitHub - affinelayer/pix2pix-tensorflow: Tensorflow port of Image-to-Image Translation with Conditional Adversarial Nets https://phillipi.github.io/pix2pix/

Pix2Pix:CGANによる画像変換 | NegativeMindException

できそうなことはだいたいできる画像生成AI、pix2pixの汎用性に驚く - WirelessWire News(ワイヤレスワイヤーニュース)

GANの基礎からStyleGAN2まで - akira - Medium

Depixelizing Pixel Art
任天堂のドット絵のアップスケーリング。直接は関係ないが、極限までスピードの要求される画像変換という点で取り上げる

次に読む論文

自分なりのアウトプット

ディープラーニングを使ってドット絵を画像に変換してみた - karaage. [からあげ]

気になった英単語・英語表現