syuntoku14の進捗

進捗を書きなぐります

進捗(4/9) 授業始まっちゃった

グラフィック表現論、非線形工学、電気機器システム、構造力学のガイダンス。講義としてがっつりやったのは非線形工学のみだった。

非線形工学

線形工学の復習だった。以下メモ
* 非線形システムは線形システムを含有する(システム全体を指す)
線形システムでは重ね合わせの理が成立する。
e.g.
線形でない例:入力u,出力y,伝達関数が$u^2$など。

* 静的なシステム
出力が現時刻の入力のみに依存するシステム。バネなど。何度もやったね。
* 動的なシステム
出力が過去の入力に依存するシステム

* 時不変システム
$y(t)=G[u(t)]->y(t-T)=G[u(t-T)],\forall T$

* 確定システム
対象システムと入力信号の両方に確率変数を含まないもの

* 集中定数システムと分布定数システム
分布:独立変数に時間tと位置情報(x,y,z)を含む
集中:時間tのみ

* 連続時間系と離散時間系
連続時間系のサンプル間隔をイベントで決める手法が主流

* ポストモダンの制御方法
(ポストモダンの話じゃないけど)大体ボード線図で考えるらしい。ボード線図から式に変換できるようにしよう。
$H_\inf$制御:NP困難なのでhopeless

* インパルス応答表現(非線形表現にするとボルテラ級数表現という)

* 畳み込み積分で表せるものは伝達関数で表せる。時不変

* 線形の周波数伝達関数表現
位相、振幅は変わるが、ωは変わらない。

マルコフ確率過程とかの話は西先生が詳しいらしい。

非線形制御

を読み始めた。解の一意性と存在性の部分がマジで難しかった。数学科に行きたいところ。
$\dot x=f(t,x) t_0\leqtt,x(t_0)=x_0$なる微分方程式が与えらたとする。点$(\tau,\xi)$の近傍で買いが存在するか考える。
f(t,x)は短形領域Ω:$|t-\tau|

論文

### Unsupervised Monocular Depth Estimation with Left-Right Consistency

これ、Related WorkにDepthEstimationの論文いっぱい載ってて読むのに疲れる
この論文、画像処理のしっかりした前提知識がないとつらい
とりあえずDispNetについて先に読んだほうがいいかも

簡単に言うと、ステレオカメラの左の画像から右の画像が復元できたとき、それは何かしらの深度情報を学んでいることと同義であるって感じ(多分)

今まではLidarやKinectを使ってground truthな深度データが必要だったけど、これはステレオカメラだけで学習しているので、Lidarみたいなコストの高いLRFがいらないみたい。強いね。

f:id:syuntoku14:20180410003426p:plain

どんなもの?

We propose a novel training objective that enables our convolutional
neural network to learn to perform single image depth
estimation, despite the absence of ground truth depth data. Exploiting
epipolar geometry constraints, we generate disparity
images by training our network with an image reconstruction
loss.
In
this work, we take an alternative approach and treat automatic
depth estimation as an image reconstruction problem during
training.
速い:
Our method is fast and only takes on the
order of 35 milliseconds to predict a dense depth map for a
512×256 image on a modern GPU. Specifically, we propose
the following contributions:

先行研究と比べてどこがすごい?

Different from existing works, it doesn't use ground truth depth.
These methods attempt to directly predict
the depth of each pixel in an image using models that have been
trained offline on large collections of ground truth depth data.

技術や手法の肝はどこ?

####Depth Estimation as Image Reconstruction

(3.1) *The intuition here is that, given a calibrated pair of binocular cameras, if we can learn a function that is able to reconstruct one image from the other, then we have learned something about the 3D shape of the scene that is being imaged.*

We train on rectified stereo image pairs, and do
not require any supervision in the form of ground truth depth.

どうやって有効だと検証した?

(4)Existing single image datasets, such as [41, 45], that lack
stereo pairs, are not suitable for evaluation. Instead we evaluate
our approach using the popular KITTI 2015 [17] dataset.

議論はある?

(5) In future work, we would like to extend our model to
videos. While our current depth estimates are performed
independently per frame, adding temporal consistency [28]
would likely improve results. It would also be interesting to
investigate sparse input as an alternative training signal [58, 6].
Finally, while our model estimates per pixel depth, it would be
interesting to also predict the full occupancy of the scene [11].

次に読むべき論文は?

そのうち