からログ

からあげが鳥並の頭で学んだことを記録する場所だよ

Oculus Go用リンク

Amazon Primeビデオ

コントローラUIのブックマークレット

http://commitorbit.com/oculusgo/

Amazon Primeビデオへのリンク

Amazon.co.jp: プライム・ビデオ: Prime Video

動画リスト

おすすめVR動画

[MV] Perfume「Everyday」-AWA DANCE 360°VR ver.- - YouTube

ボカロVR動画

Oculus Goで見たいお薦めボカロVR動画10選+α|NAT(ナット)|note

VRで見れるボカロリスト

初音ミクのアニメ・バーチャルライブ曲『ボカロカルチャー』(マッシュアップ) - ニコニコ動画

Fuji Rock

Fuji Rock Festival - YouTube

Oculus Go用コンテンツ

 コンテンツは、ブラウザ経由でなくOculus Goのストアか、スマホのアプリ経由で買うのがよいです。

SSD: Single Shot MultiBox Detector(物体検出)

論文へのリンク

[1512.02325] SSD: Single Shot MultiBox Detector

筆者・所属機関

投稿日付

2015/12/8

概要(一言まとめ)

 物体検出をディープラーニングでEnd-to-Endでできるアルゴリズム

新規性(何が過去の研究に比べて凄い?)

 従来の物体検出は、Selective Searchとの組み合わせなどで実現していたが、ディープラーニングでEnd-to-Endで学習できる。速度も精度も高い(Yoloと2トップ)。比較的低い解像度(300x300)でも性能を発揮出来る。

手法の概要

 VGG-16の畳み込み層の後に、特別な畳み込み層(Extra Feature Layers)を追加している。この追加した層で、様々なスケールでの特徴量を抽出して検出が可能らしい(Multi-scale feature maps for detection)。

 なんでそんなこと出来るのかは、全然分からなかったけど、以下のスライド見てちょっとだけ分かった気がしてきた。

コメント

関連情報

次に読む論文

自分なりのアウトプット

 物体検出の概要をまとめて、実際に動かしてみる。

 自前データでの学習もやってみたい。

気になった英単語・英語表現

  • discretize 離散化・範囲ごとに分ける
  • subsequent 後に続く
  • encapsulate カプセルに包む、要約する
  • truncated 先端を切ったような形の

We add convolutional feature layers to the end of the truncated base network 先端を断ち切ったような形のベースのネットワークに畳み込み層を追加

Open3D: A Modern Library for 3D Data Processing

論文へのリンク

Open3D

筆者・所属機関

投稿日付

概要(一言まとめ)

簡単に3次元の画像処理ができる、オープンソースライブラリOpen3Dの紹介

新規性(何が過去の研究に比べて凄い?)

オープンソースで3次元処理でプロトタイピングできるようなライブラリは今まで無かった。

Point Cloud Library(PCL)はディスられてた(重いとか、開発が止まってる?とか)

PCLに比べた利点は以下 - Python使える - 少ない行数でかける(PCLの1/5とのこと) - Jupyter Notebookでデバッグできる

手法の概要

コメント

関連情報

次に読む論文

自分なりのアウトプット

 ROSとOpen3D連携するソフトを作成

Open3D+ROS+Pythonで3次元画像処理を楽々プロトタイピング - karaage. [からあげ]

気になった英単語・英語表現

  • slate 石板?
  • loborious 骨の折れる

Despite the central role of 3D data in fields such as robotics and computer graphics, writing software that processes such data is quite laborious in comparison to other data types.

  • glue のり

Python as a glue language to assemble com- ponents implemented in the backend. のりのような言語って面白い表現ね

As an added benefit, the Python code can be edited and debugged interactively in a Jupyter Notebook.

Yolo v3をROSで動かす方法

 ros対応のyoloを以下でclone & buildします。

$ cd catkin_workspace/src
$ git clone --recursive https://github.com/kanezaki/darknet_ros.git
$ cd darknet_ros/darknet_ros
$ catkin bt -DCMAKE_BUILD_TYPE=Release

 ビルドは1回目最後まで終わらなかったので、一回強制終了して2回目で通りました(謎)。

 GPUの有無は、勝手に判別してよしなにしてくれるらしいです。

 次に学習パラメータをダウンロードします。

$ cd catkin_darknet_ros/yolo_network_config/weights/
$ wget http://pjreddie.com/media/files/yolov3.weights

 カメラは、今回は手持ちのUSB Cam(ELECOM UCAM-C0220FBNBK)を使用しました。ROSで動くカメラであれば、基本OKなはずです。

 以下で必要なドライバインストールします。

$ sudo apt-get update
$ sudo apt-get install ros-kinetic-usb-cam

 以下コマンドでroscore動かして

$ roscore

 以下コマンドでカメラを起動します。

$ rosparam set usb_cam/pixel_format yuyv
$ rosrun usb_cam usb_cam_node

 続いて、カメラに合わせて、 トピック名を変更しておきます。 /darknet_ros/darknet_ros/config/ros.yaml というファイルで変更します(最初 launchでremapしようとしてハマりました)

 以下のように修正しました。

diff --git a/darknet_ros/config/ros.yaml b/darknet_ros/config/ros.yaml
index 04abce5..5d72612 100644
--- a/darknet_ros/config/ros.yaml
+++ b/darknet_ros/config/ros.yaml
@@ -1,7 +1,7 @@
 subscribers:
  
   camera_reading:
-    topic: /camera/rgb/image_raw
+    topic: /usb_cam/image_raw
     queue_size: 1

 以下コマンド実行すると、Yolo v3が走って、ウィンドウが開いてリアルタイムに結果が出力されます。

$ roslaunch darknet_ros darknet_ros.launch

 コンソールによると5fps近く出ているようです。

FPS:4.7
Objects:
 
person: 98%

 ウィンドウが邪魔な場合は、ros.yamlの image_view/enable_opencv を falseにすればOKです。Readmeにも書いてあります。

 あとは、以下実行すれば、検出結果が表示されます。

$ rosrun image_view image_view image:=/darknet_ros/detection_image

GANのチュートリアル@NIPS2017

www.youtube.com

englishforhackers.com

Ian Goodfellow による、GAN (Generative Adversarial Network; 敵対的生成ネットワーク) のチュートリアル。 Goodfellow 氏は GAN のそもそもの生みの親であり、教科書「Deep Learning」の著者としても有名。 2時間と、とても長い盛りだくさんのチュートリアルだが、分かりやすく、具体例やコツなどの満載なので、とても参考になる。

 興味深いけど、2時間か…ちょこちょこ見てみようかな。

NIPS2017読み会のメモ

概要

 NIPS(Neural Information Processing Systems)という学会の論文を読んで紹介する他、最新の情報やトピックスを発表する会です。参加はしていないのですが、ありがたいことに資料や動画が公開れているのでメモ。

connpass.com

 資料は以下です。 connpass.com

注目の発表

 気になるものをメモ

Speech and Audio

  • 音声は1次元の時系列データとして扱う方法が1つ
  • フーリエ変換すると、横軸時間、縦軸周波数で表せれる(音の周波数の尺度はメルスケールというのを使うらしい)。そのまま2次元のCNNかけても良いし、1次元ベクトルの時系列データとしても扱える

Predicting organic reaction outcomes with weisfeiler lehman network

 ディープラーニングで化学反応の結果の予想をするらしいです。そんなこともできるんですね。

Generative Adversarial Networks (GAN)

  • NIPS2017ではGAN論文(GAN中心の論文)が34本

 GANってそれっぽい画像を生成するだけの技術と思っていたのですが、どうもそれ以上の可能性を秘めているらしいことに最近気づきました(気のせいかも)

 以前ドット絵を画像に変換したりしてみたのですが、これにもGANが使われていますね。 karaage.hatenadiary.jp

LightGBM

yutori-datascience.hatenablog.com

Kaggle気になる…