からログ

からあげが鳥並の頭で学んだことを記録する場所だよ

RefineNet

論文へのリンク

[1611.06612] RefineNet: Multi-Path Refinement Networks for High-Resolution Semantic Segmentation

筆者・所属機関

Guosheng Lin, Anton Milan, Chunhua Shen, Ian Reid

投稿日付

2016/11/20

概要(一言まとめ)

 セマンティックセグメンテーション(Semantic Segmentation)のネットワーク。従来のCNNベースのモデルだと、画像の解像度が下がってしまう問題があったが、refinenetと呼ばれるマルチパスを持つネットワークによりこれを解決する。

手法の概要

 以下みたいなネットワーク構造がキモらしい f:id:karaage:20180813102045p:plain

 以下がResNet f:id:karaage:20180813102103p:plain

コメント

関連情報

ディープラーニングにおけるセマンティックセグメンテーションのガイド2017年版 | POSTD

RefineNet on Chainer - Sigfossの開発者ブログ

GitHub - ponta256/chainer_refinenet

GitHub - mrgloom/awesome-semantic-segmentation: awesome-semantic-segmentation

次に読む論文

自分なりのアウトプット

気になった英単語・英語表現

Depth Cameras: A State-of-the-Art Review(デプスカメラのまとめ)

www.youtube.com

概要

デプスカメラ(3Dカメラ)のまとめ

内容メモと自分の補足

  • デプスカメラはピクセルごとの深度(デプス)情報が取得できる
  • 応用は AR/VR Robotics 画像処理(疑似ボケ)ビデオ会議、ゲーム
  • 主な方式は ToF/Structured-light/Active stereo/Passive stereo
  • ToFはキネクトv2、ホロレンズ。Structured-lightはキネクトv1、Xtion、Realsense SR300。Active StereoはRealsense R200, D400。Passive StereoはZED等(普通のステレオカメラ)
  • メーカーは、マイクロソフト、インテル、アップル、PMD、ZED等。キネクトv1のセンサを開発したPrimesenseはアップルに買収された(iPhone Xにつながる)
  • 視差(Parallax)による三角測量(Triangulation)
  • ToFは光の位相差から距離を取得する

Learning Face Age Progression: A Pyramid Architecture of GANs

論文へのリンク

[1711.10352] Learning Face Age Progression: A Pyramid Architecture of GANs

筆者・所属機関

投稿日付

2017/11/28

概要(一言まとめ)

 年をとったときの顔をGANを使って生成する。似たようなものはたくさんあると思うけど、クオリティが高いのが特徴なのかな?多分

f:id:karaage:20180728110426p:plain

手法の概要

 以下のようなピラミッド型の構造が肝なんだと思う。後で見てみる

f:id:karaage:20180728110412p:plain

コメント

関連情報

次に読む論文

自分なりのアウトプット

気になった英単語・英語表現

Single-Shot Object Detection with Enriched Semantics

論文へのリンク

[1712.00433] Single-Shot Object Detection with Enriched Semantics

筆者・所属機関

投稿日付

概要(一言まとめ)

セマンティックセグメンテーション的な考え(?)を取り入れることで物体検出の性能をスピード、精度ともに向上させる(?) セマンティックセグメンテーションのための、アノテーションは不要で、バウンディングボックスでの教師データからセグメンテーションの教師データは生成される(?)

新規性(何が過去の研究に比べて凄い?)

特別なアノテーションデータの追加の必要なく、セマンティックセグメンテーション的な考え方で物体検出の性能を向上している

手法の概要

コメント

 よく理解できなかった。概要も間違っているかも…

関連情報

次に読む論文

自分なりのアウトプット

気になった英単語・英語表現

NATURAL TTS SYNTHESIS BY CONDITIONING WAVENET ON MEL SPECTROGRAM PREDICTIONS(Tacotron 2)

論文へのリンク

[1712.05884] Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions

筆者・所属機関

投稿日付

概要(一言まとめ)

Googleが開発したディープラーニングを用いたText to speechの手法。

新規性(何が過去の研究に比べて凄い?)

自然な発音

手法の概要

コメント

関連情報

Google AI Blog: Tacotron 2: Generating Human-like Speech from Text

Googleが音声合成を機械学習で訓練する方法Tacotron 2を発表、システムの調教が楽になる | TechCrunch Japan

次に読む論文

 音声変換。コナンくんのやつができる?

https://www.researchgate.net/publication/307434911_Phonetic_posteriorgrams_for_many-to-one_voice_conversion_without_parallel_data_training

GitHub - andabi/deep-voice-conversion: Deep neural networks for voice conversion (voice style transfer) in Tensorflow

自分なりのアウトプット

気になった英単語・英語表現