からログ

からあげが鳥並の頭で学んだことを記録する場所だよ

くら寿司がラズパイでエッジAIを活用中

 メモ。くら寿司はPepperをやめて、ラズパイにしたのだろうか。

 ラズパイ + Google Coralの組み合わせのようだけど、どこらへんにGoogle Coralを使っているのだろう。

 QRコードを読み込むだけなら、ラズパイで十分な気がする。他にディープラーニングで画像認識しているのだろうか。

 Google Coral使っていないからよく分からないけど、Google Cloudとの便利な連携機能があったりするのだろうか?

画像認識にもTransformerの波!?SoTAモデル「ViT」

論文へのリンク

An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale | OpenReview

筆者・所属機関

Anonymous authors

Paper under double-blind review

目隠しレビュー中のため、著者非公開らしい。でも、きっとFacebookでしょ?

投稿日付

2020/xx/xx

記載を探せなかった

概要(一言まとめ)

 自然言語処理で高い性能を出す「Transformer」を画像認識のタスクに適用し、SoTAの性能達成

手法の概要

 モデルの概要は以下の通り。

f:id:karaage:20201013150123p:plain

 画像は畳み込みは用いず、小さいパッチに分割する。パッチは、畳み込みでなくFlattenしてベクトル化。

 そのあとは、ほぼTransformer(BERT)

 事前学習のデータが少ないと性能が出ないらしい。

 詳細は以下が分かりやすい。

画像認識の大革命。AI界で話題爆発中の「Vision Transformer」を解説! - Qiita

コメント

 CNNがTransoformer(Attention)に置き換わっていくのだろうか…直感的にはCNNの方が良さそうなのだけど。

 タスクにも依存しそうな気はするので試してみたい。Kaggleで使われだしたら本物だと思う。

 事前学習のデータ量が膨大でないと性能がでないというのも気になる。分かりやすい解説を書いている記事では

畳み込みが持つ「局所性」のようなバイアスはデータ数が少ない場合には有効だが、データ数が大きい場合にはむしろ不要となるということです。これはおもしろいですね。

 と書いているけど「うーん」という感じ。

関連情報

An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale · Issue #1906 · arXivTimes/arXivTimes · GitHub

画像認識の大革命。AI界で話題爆発中の「Vision Transformer」を解説! - Qiita

Attentionのメカニズム - からログ

GitHub - lucidrains/vit-pytorch: Implementation of Vision Transformer, a simple way to achieve SOTA in vision classification with only a single transformer encoder, in Pytorch

次に読む論文

自分なりのアウトプット

気になった英単語・英語表現

みんなお馴染みPythonの数値計算ライブラリ「Numpy」の論文

論文へのリンク

Array programming with NumPy | Nature

筆者・所属機関

Charles R. Harris(Independent researcher), K. Jarrod Millman(Berkeley)

投稿日付

2020/09/16

概要(一言まとめ)

 Pythonの数値計算ライブラリとしてお馴染みにのNumpyの論文。なんとNatureに掲載。

手法の概要

 もともとPythonにあったNumericとNumarrayという2つのライブラリが統合されてできたのがNumpy(知らなかった)。

 以下の図から、今やNumpyが数多くのライブラリに使われていることが分かる(知らないものもたくさん)。

f:id:karaage:20200921094607p:plain

 その他、Numpyが使われたプロジェクトの輝かしい功績や、Numpyの特徴・メリットが記載されている。

コメント

 Numpyさんにはお世話になってます。

関連情報

numbaでざっくりPython高速化 - Qiita
100 numpy exercisesをやるとNumpy力上がるかも

次に読む論文

自分なりのアウトプット

画像処理ライブラリによる画像ファイルのnumpy.ndarray変換の速度比較 - Qiita

Python関係の「○○100本ノック」のまとめ - Qiita

気になった英単語・英語表現

  • consecutive 連続

学習済みモデルを使って超速学習

論文へのリンク

[2005.14140] Modeling the Distribution of Normal Data in Pre-Trained Deep Features for Anomaly Detection

筆者・所属機関

投稿日付

2020/04/22

概要(一言まとめ)

手法の概要

コメント

関連情報

次に読む論文

自分なりのアウトプット

気になった英単語・英語表現

深層生成モデルライブラリPixyz

深層生成モデルと世界モデル, 深層生成モデルライブラリPixyzについて
TensorFlow User Group Meetup - ベイズ分科会 - connpassでの発表資料

 世界モデルというのは、やっていることはもろSLAMっぽいけど、違いがよく分からない。

 Pixyzという深層生成モデルライブラリ、きになる。一度さわってみたい。

Attentionのメカニズム

論文へのリンク

An Empirical Study of Spatial Attention Mechanisms in Deep Networks

[1904.05873] An Empirical Study of Spatial Attention Mechanisms in Deep Networks

筆者・所属機関

Xizhou Zhu1,3, Dazhi Cheng2,3 ,Zheng Zhang3 ,Stephen Lin3 ,Jifeng Dai3

  1. University of Science and Technology of China
  2. Beijing Institute of Technology
  3. Microsoft Research Asia

投稿日付

2019/04/11

概要(一言まとめ)

手法の概要

コメント

関連情報

次に読む論文

自分なりのアウトプット

気になった英単語・英語表現

  • empirical 経験的
  • ablate 切断する
  • encompass 包含する
  • prevalent 流行している
  • negligible ごくわずかな
  • saliency 突出
  • supersede とってかわる

double-descentの謎を解明?

論文へのリンク

[1912.02292] Deep Double Descent: Where Bigger Models and More Data Hurt

筆者・所属機関

Preetum Nakkiran(Harvard University), Gal Kaplun(Harvard University), Yamini Bansal(Harvard University), Tristan Yang(Harvard University), Boaz Barak(Harvard University), Ilya Sutskever(OpenAI)

全員 Beihang University(北京大学)

投稿日付

2019/12/04

概要(一言まとめ)

大きいディープラーニングのモデルで、パフォーマンスが低下(過学習)となった後、さらに学習をし続けるとまた性能が上がる現象(double-descent)をeffective model complexityという指数を定義して説明

手法の概要

コメント

宝くじ仮説と同じ話かと思ったら、どうも同じではないらしい。

なんとなく同じことを言っているような気がするけど…うーむ、分からん。

関連情報

論文読み:DEEP DOUBLE DESCENT - Qiita

次に読む論文

自分なりのアウトプット

気になった英単語・英語表現