syuntoku14の進捗

進捗を書きなぐります

進捗(5/1) 忙しい

進捗(5/1) 忙しい

@(進捗ブログ)

何もかもがめんどくさい。考えることがいっぱいあって頭おかしなるで。すべてを投げ捨てて箱根とかに行きたいところ。

普通のQ-Learningの様子 f:id:syuntoku14:20180501231830p:plain

DQNの様子 f:id:syuntoku14:20180501231822p:plain

ただのQ-Learningよりとても早いですね。すごい。 ソースコードではkeras-rlを使ったけど、これめっちゃ便利でつね。 ところでExperience replayがよくわかっていないので、分かりやすい論文やサイト知っている人おちえて。

  • Coursera
  • Mean field approximation (平均場近似)
    1. select a family of distribution Q $$Q ={q|q(z)=\prodd_{i=1}q_i(z_i)}$$
    2. Find best approximation q(z) of $p^(z)$ $$KL[q(z) ||p^(z)]\rightarrow \min_{q\in Q}$$

Example

$$KL[\prodd{i=1}q(z) ||p^*(z)]\rightarrow \min{q\in Q}$$

It's really dificult...

Anyway, he finally derived the following equation.

$$\log q_k =E{q{-k}}\log p^* + const$$

Tequniques

to find the terms which are constants with respect to $q_k$ $$\int\prodd{j=1}q_j\log q_k dz=\int q_k\log q_k[\int \prod{j\neq k}q_j dz_{\neq k}]dz_k$$ $$=\int q_k \log q_k dz_k$$