不確実性を考慮した時系列データ予測

2018/06/25

はじめに

カブクで機械学習エンジニアをしている大串正矢です。今回は不確実性を考慮した時系列データ予測について書きます。

背景

深層学習では点推定と呼ばれる、ある1点の推定は得意です。例えば、ある画像が与えられたときに、それが90%の確率で猫の画像であるというような推定が可能です。しかし、この確率のブレ幅がどの程度かまでは出してくれません。

85〜95%の90%なのか70〜95%の90％なのかでその信頼度は変わってきます。過去のケースなど実際のデータがある場合は確認は可能ですが未来や未知の予測の場合はブレ幅も分かっていることでどの程度信頼しても良いのか判断できます。このようなブレ幅を不確実性と呼びます。

ベイズの考えを取り入れればこの不確実性を取り入れることが可能です。
実は深層学習にこのベイズの考えを取り入れるための手法としてベイズとDropoutが近似できることを示した論文が出ています。

Dropout as a Bayesian Approximation: Representing Model Uncertainty in Deep Learning

今回はこの性質を用いて不確実性をどのように表すか見てみます。

ベイズについて

Dropoutはベイズの近似であることを理解するためにまず、ベイズについて理解しておく必要があります。入力データが\(X\)（例えば画像データなど）、予測すべきラベルが\(Y\)（猫などのラベル）、学習によって得られる重みパラメータが\(W\)（学習で得られる重みパラメータ）とすると学習の際のベイズの式は下記のように記述できます。この式で\(p(W)\)は事前分布になります。

\begin{align}
p(W|X,Y) = \frac{p(Y|X,W)p(W)}{\int{p(Y|X,W)p(W)}dW}
\end{align}

上式の分母の項目は全てのデータを用いているため計算コストが高く、深層学習で有効なミニバッチ処理などが適用できません。そこでミニバッチ処理を適用可能な形に変更していきます。
\(W\)がハイパーパラメータ\(\Theta\)から導出されるような事前分布\(q(W|\Theta)\)を考えます。

\begin{align}
q(W|\Theta) = \arg \min_{\Theta}D(q(W|\Theta), p(W|X,Y))
\end{align}

上の式はパラメータ\(\Theta\)から重みパラメータを生成する分布\(q(W|\Theta)\)と学習データ\(X\)と学習ラベル\(Y\)から重みパラメータ\(W\)が生成される分布\(p(W|X,Y)\)の距離が小さくなるようなパラメータ\(\Theta\)を導出する意味になります。
書き換えると

\begin{align}
D(q(W|\Theta), p(W|X,Y)) = KL(q(W|\Theta)||p(W|X,Y))
\end{align}

分布間のカルバック・ライブラー・ダイバージェンスを小さくすることになります。つまり分布\(q(W|\Theta)\)と分布\(p(W|X,Y)\)がどれだけ似ているかを表しています。この距離が最小化されると分布同士が近い性質になっていることになります。

ではこのカルバック・ライブラー・ダイバージェンスを展開して形を変えます。

\begin{align}
KL(q(W|\Theta)||p(W|X,Y)) = \int_{w}{q(W|\Theta) \log\frac{q(W|\Theta)}{p(W|X,Y)}} \
= – \int_{w} q(W|\Theta) \log\frac{p(W|X,Y)}{q(W|\Theta)} \
\end{align}

ここで\(p(W|X,Y)\)だけに着目し式展開して整理します。
ベイズの定理と条件付き確率の定義を利用します。

まずベイズの定理を利用

\begin{align}
p(W|X,Y) = \frac{p(X,Y|W)p(W)}{p(X, Y)} \
= \frac{p(X,Y|W)p(W)}{p(X, Y)}\frac{p(W)}{p(W)} \
\end{align}

条件付き確率の定義を利用

\begin{align}
= \frac{p(X,Y,W)p(W)}{p(W)p(X, Y)}\frac{p(W)}{p(W)} \
= \frac{p(X,Y,W)p(W)}{p(X, Y)}\frac{1}{p(W)} \
= \frac{p(X,Y,W)}{p(X, Y)} \
= \frac{p(X,Y,W)}{p(X, Y)}\frac{p(X, W)}{p(X, W)} \
\end{align}

条件付き確率の定義を利用

\begin{align}
= \frac{p(Y|X,W)p(X, W)}{p(X, Y)} \
\end{align}

\(X\)と\(W\)が独立、\(X\)と\(Y\)が独立と仮定

\begin{align}
= \frac{p(Y|X,W)p(X)p(W)}{p(X)p(Y)} \
= \frac{p(Y|X,W)p(W)}{p(Y)}
\end{align}

ここで求めた式を用いてカルバック・ライブラー・ダイバージェンスに関する式を書き直します。対数を逆数にしたので\(\Theta\)を最大化するように式を変形します。\(p(Y)\)は\(W\)に依存しないため無視します。

\begin{align}
KL(q(W|\Theta)||p(W|X,Y)) = \arg \max_{\Theta}{- \int_{w} q(W|\Theta) \log\frac{p(Y|X,W)p(W)}{q(W|\Theta)}dW} \
\end{align}

上式を分解します。

\begin{align}
\arg \max_{\Theta}{\int_{w} q(W|\Theta) \log p(Y|X,W)dW – \int_{w} q(W|\Theta) \log\frac{p(W)}{q(W|\Theta)}dW} \
\end{align}
\begin{align}
= \arg \max_{\Theta}{\int_{w} q(W|\Theta) \log p(Y|X,W) dW – KL(q(W|\Theta)||p(W))}
\end{align}

上式をEvidence Lower Bound（略称: ELBO）と呼びます。この式によってパラメータを最適化します。

左の項がデータに対して最適化する項です。
\begin{align}
\int_{w} q(W|\Theta) \log p(Y|X,W)dW
\end{align}

右の項がデータに対して正則化する項です。

\begin{align}
KL(q(W|\Theta)||p(W))
\end{align}

ここで重要なのはベイズの式によって事前分布を与えられること、深層学習においてミニバッチが適用可能な形にするためELBOを用いることになります。

ベイズとDropoutの近似について

Dropoutは下記の図のように考えてもらうとネットワークにノイズを付与していることになります。
ベイズ的に考えるとノイズを加えるような事前分布を考慮していることになります。

重みWは下記のような式になります。

\begin{align}
w_{ij} = \theta_{ij}\epsilon_{ij}, \epsilon_{ij} \sim N(\epsilon_{ij}|1, \alpha)
\end{align}

このノイズを考慮したパラメータの最適化は下記のようになります。stochgradは確率的勾配法を表しています。

\begin{align}
{\rm stochgrad}_{\theta} \log p(Y|X, W)
\end{align}

\begin{align}
= {\rm stochgrad}_{\theta} \log p(Y|X, \Theta\hat{\epsilon})
\end{align}

\begin{align}
\hat{\epsilon} \sim N(\epsilon|1, \alpha I)
\end{align}

ベイズによって重みを導出する事前分布をノイズを含むような正規分布として深層学習のモデルを下記のような式で考えると

\begin{align}
{\rm stochgrad}_{\theta} \int N(W|\Theta, \alpha\Theta^2) \log p(Y|X,W) dW
\end{align}

\begin{align}
N(W|\Theta, \alpha\Theta^2) = \prod N(w_{ij}|\theta_{ij}, \alpha\theta^2_{ij})
\end{align}

ここで\({\rm stochgrad}_{\theta} \log p(Y|X, \Theta\hat{\epsilon})\)と上の式が等価であることが表せれば、ドロップアウトはノイズを加える正規分布と等価として扱えることになります。

これを導出する前にreparameterization-trickについて説明します。
現在は重み\(W\)が分布により導出されている形になります。

これだと重み\(W\)が決定的にならず誤差逆伝搬ができません。そこで仲介するようなパラメータを導入してそのパラメータが分布から生成されると仮定してパラメータ\(W\)は決定的にして誤差逆伝搬を可能にすることをreparameterization-trickと言います。

重み\(W\)が得られる分布をreparameterization-trickによってDropoutによるノイズ付与している正規分布に書き換えています。

\begin{align}
{\rm stochgrad}_{\theta} \int N(W|\Theta, \alpha\Theta^2) \log p(Y|X,W) dW
\end{align}

reparameterization-trickを使用

\begin{align}
= {\rm stochgrad}_{\theta} \int N(\epsilon|1, \alpha) \log p(Y|X, \Theta\epsilon) d\epsilon
\end{align}

\begin{align}
= {\rm stochgrad}_{\theta} \log p(Y|X, \Theta\hat{\epsilon})
\end{align}

\begin{align}
\hat{\epsilon} \sim N(\epsilon|1, \alpha I)
\end{align}

これで最初に定義したDropoutによる効果とベイズで定義した式が等価であることが示せました。
ベイズで定義した式の最適化にはELBOを使用しています。
今回定義した式がELBOと等価かどうかも見てみます。

\begin{align}
\int N(W|\Theta, \alpha\Theta^2) \log p(Y|X,W) dW
\end{align}

ここでノイズの項を置き換えます。

\begin{align}
q(W|\Theta, \alpha) = N(W|\Theta, \alpha\Theta^2) = \prod_{ij} N(w_{ij}|\theta_{ij}, \alpha\theta^2_{ij})
\end{align}

置き換えるとELBOの右のデータ項になります。左の正則化項は\(\alpha\)にのみ依存するようなので今回導出するパラメータとは無関係のため無視できます。参考: Dropout as Bayesian procedure

\begin{align}
\int q(W|\Theta, \alpha) \log p(Y|X,W) dW
\end{align}

これでDrooutとベイズが近似可能であり、パラメータの更新のためのELBOも適用可能なことが分かりました。

Dropoutのベイズ近似を利用した不確実性を考慮した時系列データ予測

Deep and Confident Prediction for Time Series at Uberという論文で時系列データに適用した例があるのでそこで利用されている手法を用いて不確実性を考慮した時系列データ予測を行います。

この論文ではMCdropoutという手法を用いて用いてモデルの不確実性を表しています。
MCDropoutを参考にベイズを考慮したシンプルなアルゴリズムを適用します。

1: Dropoutの系列を用意。[0.1, 0.2, 0.3..]など
2: Dropoutの系列ごとにモデルを学習
3: 学習した各モデルの予測値の平均を導出
4: 学習した各モデルの予測値と真の値の誤差の平均を導出
5: 3を正規分布の平均に、4で導出した誤差を正規分布の分散に適用

時系列データの取得、前処理、学習のコードはこのブログのコードを使用します。

学習モデルの定義部分です。モデルにdropoutの比率を設定できるようにしています。

def create_model(input_dim,
                 time_steps,
                 latent_dim,
                 # データが一つしかないので1しか選べない
                 batch_size=1,
                 model_option='lstm',
                 optimizer='adam',
                 drop_out=0.5,
                ):
    x = Input(shape=(time_steps, input_dim,))

    if model_option == 'lstm':
        h = LSTM(latent_dim, stateful=False, return_sequences=True, dropout=drop_out)(x)
    elif model_option == 'gru':
        h = GRU(latent_dim, stateful=False, return_sequences=True, dropout=drop_out)(x)

    out = Dense(input_dim)(h)

    model = Model(x, out)
    model.summary()

    model.compile(optimizer=optimizer, loss='mean_squared_error', metrics=['mse'])

    return model

Dropoutのリストを作成して各モデルに適用し、予測のリストと実測と予測の誤差の2乗平均のリストを作成しています。

drop_out_list = [0.01, 0.02, 0.03, 0.04]
predict_list = []
var_list = []

for drop_out in drop_out_list:
    model = create_model(input_dim, 
                         time_steps=time_steps,
                         latent_dim=120,
                         model_option='lstm',
                         drop_out=drop_out,
                        )
    model.fit(x, x, epochs=200)
    window = time_steps
    x_test, scaler = prepare_data(X_smooth_test, time_steps)
    predict_test, x_scale_train = predict_model_show_graph(X_test_day_smooth[window + 1:], x_test, scaler, model)
    predict_list.append(predict_test)
    var_list.append(np.average(np.subtract(x_test, predict_test) ** 2))

全体のコードは下記になります。

https://github.com/SnowMasaya/time_series_anomaly_detect_hands_on/blob/master/advanced/time_series_anomaly_detect_keras_uncertainly.ipynb

評価指標

ここで計測すべき指標は下記になります。

RMSE: 正常な時系列を正確に再現できているかを表す指標です。低いほど性能が良いことを表します。
Variance（分散）: 予測波形のブレ幅を表します。小さい方がベターですが一概には言えなく変化が大きい部分では予測が難しくなるのでブレ幅が大きくなります。低いほど一般的な性能が良いことを表します。
Coverage: 予測波形と分散が実波形をどの程度カバーしているかを表します。高いほど性能が良いことを表します。

下記の図はの際に予測値が取りうる範囲を黄色と緑色で示しています。青が実測値を示しています。

Dropout 1,2,3,4%

Dropoutが10,20,30,40%

今回はDropoutが1,2,3,4%のノイズが少ない事前分布を想定した場合と10,20,30,40%のノイズが中程度の事前分布を比較しました。

下記の表は先ほど示した計測指標のテストデータに対する結果を記述しています。Dropoutを大きくするとRMSEが上昇しますがカバレッジは向上しています。ノイズを多く導入することによりデータに対するカバー率が上昇するのは直感的な感覚に近い現象になっています。

Dropout リスト	RMSE	Variance	Coverage
1,2,3,4%	1.4165	10.1799	0.9767
10,20,30,40%	1.5987	9.5052	1.0

最後に

弊社ではソフトウェアと機械学習を用いて不確実な未来を予測できる方を絶賛採用中なので是非、弊社へ応募してください。

参考

https://www.coursera.org/learn/bayesian-methods-in-machine-learning

https://stats.stackexchange.com/questions/199605/how-does-the-reparameterization-trick-for-vaes-work-and-why-is-it-important

その他の記事

Other Articles

2022/06/03
拡張子に Web アプリを関連付ける File Handling API の使い方

2022/03/22
<selectmenu> タグできる子; <select> に代わるカスタマイズ可能なドロップダウンリスト

2022/03/02
Java 15 のテキストブロックを横目に C# 11 の生文字列リテラルを眺めて ECMAScript String dedent プロポーザルを想う

2021/10/13
Angularによる開発をできるだけ型安全にするためのKabukuでの取り組み

2021/09/30
さようなら、Node.js

2021/09/30
Union 型を含むオブジェクト型を代入するときに遭遇しうるTypeScript型チェックの制限について

2021/09/16
[ECMAScript] Pipe operator 論争まとめ – F# か Hack か両方か

2021/07/05
TypeScript v4.3 の機能を使って immutable ライブラリの型付けを頑張る

2021/06/25
Denoでwasmを動かすだけの話

2021/05/18
DOMMatrix: 2D / 3D 変形（アフィン変換）の行列を扱う DOM API

2021/03/29
GoのWASMがライブラリではなくアプリケーションであること

2021/03/26
Pythonプロジェクトの共通のひな形を作る

2021/03/25
インラインスタイルと Tailwind CSS と Tailwind CSS 入力補助ライブラリと Tailwind CSS in JS

2021/03/23
Serverless NEGを使ってApp Engineにカスタムドメインをワイルドカードマッピング

2021/01/07
esbuild の機能が足りないならプラグインを自作すればいいじゃない

2020/08/26
TypeScriptで関数の部分型を理解しよう

2020/06/16
[Web フロントエンド] esbuild が爆速すぎて webpack / Rollup にはもう戻れない

2020/03/19
[Web フロントエンド] Elm に心折れ Mint に癒しを求める

2020/02/28
さようなら、TypeScript enum

2020/02/14
受付のLooking Glassに加えたひと工夫

2020/01/28
カブクエンジニア開発合宿に行ってきました 2020冬

2020/01/30
Renovateで依存ライブラリをリノベーションしよう〜 Bitbucket編〜

2019/12/27
Cloud Tasks でも deferred ライブラリが使いたい

2019/12/25
*, ::before, ::after { flex: none; }

2019/12/21
Top-level awaitとDual Package Hazard

2019/12/20
Three.jsからWebGLまで行きて帰りし物語

2019/12/18
Three.jsに入門＋手を検出してAR.jsと組み合わせてみた

2019/12/04
WebXR AR Paint その２

2019/11/06
GraphQLの入門書を翻訳しました

2019/09/20
Kabuku Connect 即時見積機能のバックエンド開発

2019/08/14
Maker Faire Tokyo 2019でARゲームを出展しました

2019/07/25
夏休みだョ！WebAssembly Proposal全員集合！！

2019/07/08
鵜呑みにしないで！ —— 書籍『クリーンアーキテクチャ』所感 ≪null 篇≫

2019/07/03
W3C Workshop on Web Games参加レポート

2019/06/28
TypeScriptでObject.assign()に正しい型をつける

2019/06/25
カブクエンジニア開発合宿に行ってきました 2019夏

2019/06/21
Hola! KubeCon Europe 2019の参加レポート

2019/06/19
Clean Resume きれいな環境できれいな履歴書を作成する

2019/05/20
[Web フロントエンド] 状態更新ロジックをフレームワークから独立させる

2019/04/16
C++のenable_shared_from_thisを使う

2019/04/12
OpenAPI 3 ファーストな Web アプリケーション開発（Python で API 編）

2019/04/08
WebGLでレイマーチングを使ったCSGを実現する

2019/03/29
その1 Jetson TX2でk3s(枯山水)を動かしてみた

2019/04/02
『エンジニア採用最前線』に感化されて2週間でエンジニア主導の求人票更新フローを構築した話

2019/03/27
任意のブラウザ上でJestで書いたテストを実行する

2019/02/08
TypeScript で “radian” と “degree” を間違えないようにする

2019/02/05
Python3でGoogle Cloud ML Engineをローカルで動作する方法

2019/01/18
SIGGRAPH Asia 2018 参加レポート

2019/01/08
お正月だョ！ECMAScript Proposal全員集合！！

2019/01/08
カブクエンジニア開発合宿に行ってきました 2018秋

2018/12/25
OpenAPI 3 ファーストな Web アプリケーション開発（環境編）

2018/12/23
いまMLKitカスタムモデル（TF Lite）は使えるのか

2018/12/21
[IoT] Docker on JetsonでMQTTを使ってCloud IoT Coreと通信する

2018/12/11
TypeScriptで実現する型安全な多言語対応（Angularを例に）

2018/12/05
GASでCompute Engineの時間に応じた自動停止/起動ツールを作成する〜GASで簡単に好きなGoogle APIを叩く方法〜

2018/12/02
single quotes な Black を vendoring して packaging

2018/11/14
3次元データに2次元データの深層学習の技術(Inception V3, ResNet)を適用

2018/11/04
Node Knockout 2018 に参戦しました

2018/10/24
SIGGRAPH 2018参加レポート-後編（VR/AR）

2018/10/11
Angular 4アプリケーションをAngular 6に移行する

2018/10/05
SIGGRAPH 2018参加レポート-特別編（VR@50）

2018/10/03
Three.jsでVRしたい

2018/10/02
SIGGRAPH 2018参加レポート-前編

2018/09/27
ズーム可能なSVGを実装する方法の解説

2018/09/25
Kerasを用いた複数入力モデル精度向上のためのTips

2018/09/21
競技プログラミングの勉強会を開催している話

2018/09/19
Ladder Netwoksによる半教師あり学習

2018/08/10
「Maker Faire Tokyo 2018」に出展しました

2018/08/02
Kerasを用いた複数時系列データを1つの深層学習モデルで学習させる方法

2018/07/26
Apollo GraphQLでWebサービスを開発してわかったこと

2018/07/19
【深層学習】時系列データに対する１次元畳み込み層の出力を可視化

2018/07/11
きたない requirements.txt から Pipenv への移行

2018/06/26
CSS Houdiniを味見する

2018/06/20
Google Colaboratory を自分のマシンで走らせる

2018/06/18
Go言語でWebAssembly

2018/06/15
カブクエンジニア開発合宿に行ってきました 2018春

2018/06/08
2018 年の tree shaking

2018/06/07
隠れマルコフモデル入門

2018/05/30
DASKによる探索的データ分析(EDA)

2018/05/10
TensorFlowをソースからビルドする方法とその効果

2018/04/23
EGLとOpenGLを使用するコードのビルド方法〜libGLからlibOpenGLへ

2018/04/23
技術書典4にサークル参加してきました

2018/04/13
Python で Cura をバッチ実行するためには

2018/04/04
ARCoreで3Dプリント風エフェクトを実現する〜呪文による積層造形映像制作の舞台裏〜

2018/04/02
深層学習を用いた時系列データにおける異常検知

2018/04/01
音声ユーザーインターフェースを用いた新方式積層造形装置の提案

2018/03/31
Container builderでコンテナイメージをBuildしてSlackで結果を受け取る開発スタイルが捗る

2018/03/23
ngUpgrade を使って AngularJS から Angular に移行

2018/03/14
Three.jsのパフォーマンスTips

2018/02/14
C++17の新機能を試す〜その1「3次元版hypot」

2018/01/17
時系列データにおける異常検知

2018/01/11
異常検知の基礎

2018/01/09
three.ar.jsを使ったスマホAR入門

2017/12/17
Python OpenAPIライブラリ bravado-core の発展的な使い方

2017/12/15
WebAssembly（wat）を手書きする

2017/12/14
AngularJS を Angular に移行: ng-annotate 相当の機能を TypeScrpt ファイルに適用

2017/12/08
Android Thingsで4足ロボットを作る ~ Android ThingsとPCA9685でサーボ制御)

2017/12/06
Raspberry PIとDialogflow & Google Cloud Platformを利用した、3Dプリンターボット(仮)の開発 (概要編)

2017/11/20
カブクエンジニア開発合宿に行ってきました 2017秋

2017/10/19
Android Thingsを使って3Dプリント戦車を作ろう ① ハードウェア準備編

2017/10/13
第2回魁！！ GPUクラスタ on GKE ~PodからGPUを使う編~

2017/10/05
第1回魁！！ GPUクラスタ on GKE ~GPUクラスタ構築編~

2017/09/13
「Maker Faire Tokyo 2017」に出展しました。

2017/09/11
PyConJP2017に参加しました

2017/09/08
bravado-coreによるOpenAPIを利用したPythonアプリケーション開発

2017/08/23
OpenAPIのご紹介

2017/08/18
EuroPython2017で2名登壇しました。

2017/07/26
3DプリンターでLチカ

2017/07/03
Three.js r86で何が変わったのか

2017/06/21
3次元データへの深層学習の適用

2017/06/01
カブクエンジニア開発合宿に行ってきました 2017春

2017/05/08
Three.js r85で何が変わったのか

2017/04/10
GCPのGPUインスタンスでレンダリングを高速化

2017/02/07
Three.js r84で何が変わったのか

2017/01/27
Google App EngineのFlexible EnvironmentにTmpfsを導入する

2016/12/21
Three.js r83で何が変わったのか

2016/12/02
Three.jsでのクリッピング平面の利用

2016/11/08
Three.js r82で何が変わったのか

2016/12/17
SIGGRAPH 2016 レポート

2016/11/02
カブクエンジニア開発合宿に行ってきました 2016秋

2016/10/28
PyConJP2016 行きました

2016/10/17
EuroPython2016で登壇しました

2016/10/13
Angular 2.0.0ファイナルへのアップグレード

2016/10/04
Three.js r81で何が変わったのか

2016/09/14
カブクのエンジニアインターンシッププログラムについての詩

2016/09/05
カブクのエンジニアインターンとして3ヶ月でやった事　〜高橋知成の場合〜

2016/08/30
Three.js r80で何が変わったのか

2016/07/15
Three.js r79で何が変わったのか

2016/06/02
Vulkanを試してみた

2016/05/20
MakerGoの作り方

2016/05/08
TensorFlow on DockerでGPUを使えるようにする方法

2016/04/27
Blenderの3DデータをMinecraftに送りこむ

2016/04/20
Tensorflowを使ったDeep LearningにおけるGPU性能調査