3次元データに2次元データの深層学習の技術(Inception V3, ResNet)を適用

2018/11/14
このエントリーをはてなブックマークに追加

はじめに

カブクで機械学習エンジニアをしている大串正矢です。今回は3次元データに2次元データの深層学習の技術(Inception V3, ResNet)を適用した結果について書きます。

背景

深層学習のモデルは層が深ければ深いほど精度が良いことが知られていますが下記に挙げる問題点があります。

  1. 層が深くなるにつれて抽象的な情報のみ伝搬されて、エッジなどの情報が欠落する
  2. 層が深くなればなるほどパラメータ数が増大し、学習の難易度が上がる

3次元データでも同様の問題が発生するので2次元データで使用されている層を深くするための技術を3次元データに適用したのが今回のブログの内容になります。

手法

前処理と3次元CNNは前回の記事と同一になります。

https://www.kabuku.co.jp/software_engineer/deep-learning-for-3d-model

VoxNet

前回の記事と同様なので割愛します。

https://www.kabuku.co.jp/software_engineer/deep-learning-for-3d-model

2次元データの深層学習の技術(Inception V3, ResNet)

2次元データの深層学習の技術(Inception V3, ResNet)について説明します。

InceptionV3

InceptionV3で使用されている技術としてスパースな畳込みと1×1の畳み込みがあります。これらは深い層を実現するためのパラメータ削減の技術になります。

深い層ほどパラメータが多くなるため、そのパラメータを減らすための工夫になります。
2次元データでチャネルを考慮すると畳み込みのパラメータ数は下記になります。

  • 畳み込みのパラメータ数:カーネルサイズの2乗 * 入力チャネル数 * 出力チャネル数

スパースな畳み込み

  • チャネルごとにカーネルサイズを変更してパラメータ数を減らす工夫
    • 例(2次元の場合):カーネルサイズ5で出力チャネルを2にした場合
    • 入力チャネル数3
    • 出力チャネル数2
    • 5 * 5 * 3 * 2 = 150
    • 例(2次元の場合):カーネルサイズ5とカーネルサイズ3を用意して出力チャネルごとに与えた場合
    • 入力チャネル数3
    • 出力チャネル数2(チャネルごとにカーネルサイズが異なる)
    • 5 * 5 * 3 * 1 + 3 * 3 * 3 * 1 = 102

出力チャネルごとにカーネルサイズを変更することでパラメータサイズを減らして多様なカーネルサイズを適用することが可能になる技術です。
3次元で適用すると下記のような計算になります。
– 例(3次元の場合):カーネルサイズ5で出力チャネルを2にした場合
– 入力チャネル数3
– 出力チャネル数1
5 * 5 * 5 * 3 * 2 = 750
– 例(3次元の場合):カーネルサイズ5とカーネルサイズ3を用意して出力チャネルごとに与えた場合
– 入力チャネル数3
– 出力チャネル数2(チャネルごとにカーネルサイズが異なる)
5 * 5 * 5 * 3 * 1 + 3 * 3 * 3 * 3 * 1 = 456

2次元のケースだと32%の削減効果がありましたが、3次元だと40%近い削減効果がありました。スパースな畳み込みは3次元データだとより効果を発揮することが分かります。

下記のようなイメージになります。

kerasで簡易的なスパースな畳み込みを書くと下記のようになります。

with tf.name_scope('Inputs'):
    inputs = Input((32, 32, 32, 1))

with tf.name_scope('Conv3D_3x3'):
    vx_3x3 = Conv3D(filters=32,
               kernel_size=3,
               padding='same',
               strides=(1, 1, 1),
               )(inputs)

with tf.name_scope('Conv3D_1x1'):
    vx_1x1 = Conv3D(filters=32,
               kernel_size=1,
               padding='same',
               strides=(1, 1, 1),
               )(inputs)

with tf.name_scope('Concat'):
    x = concatenate([vx_3x3, vx_1x1], axis=-1,)

model = Model(inputs=[inputs], outputs=[x])

1×1の畳み込み

1×1のコンボリューションを使用してチャネル数を削減する手法になります。これによって特徴マップのサイズを変更せずにパラメータ数を減らすことができます。

  • 例(2次元の場合):
    • 特徴マップ:64 * 64 * 100
    • 畳み込みサイズ:1 * 1 * 20
    • 出力特徴マップ:64 * 64 * 20
  • 例(3次元の場合):
    • 特徴マップ:64 * 64 * 64 * 100
    • 畳み込みサイズ:1 * 1 * 1 * 20
    • 出力特徴マップ:64 * 64 * 64 * 20

2次元と3次元共にパラメータ削減率は80%となっています。

ダウンサンプリング

スパースな畳み込みに加えてパラメータサイズを減らすためにMaxPool、Average Poolをかける処理を加えます。

下記のようなイメージになります。

kerasで簡易的なダウンサンプリングを書くと下記のようになります。

with tf.name_scope('Inputs'):
    inputs = Input((32, 32, 32, 1))

with tf.name_scope('Conv3D_3x3'):
    vx_3x3 = Conv3D(filters=32,
               kernel_size=3,
               padding='same',
               strides=(1, 1, 1),
               )(inputs)

with tf.name_scope(
        'MaxPooling3D'):
    vx_3x3_max = MaxPooling3D(
        pool_size=(1, 1, 1),
        strides=None,
        padding='same',
        data_format='channels_last',
        )(vx_3x3)

with tf.name_scope('Conv3D_3x3_2'):
    vx_3x3 = Conv3D(filters=32,
               kernel_size=3,
               padding='same',
               strides=(1, 1, 1),
               )(inputs)

with tf.name_scope(
        'AveragePooling3D'):
    vx_3x3_average = AveragePooling3D(
        pool_size=(1, 1, 1),
        strides=None,
        padding='same',
        data_format='channels_last',
        )(vx_3x3)

with tf.name_scope('Conv3D_3x3_2'):
    vx_3x3 = Conv3D(filters=32,
               kernel_size=3,
               padding='same',
               strides=(1, 1, 1),
               )(inputs)

with tf.name_scope('Conv3D_1x1'):
    vx_1x1 = Conv3D(filters=32,
               kernel_size=3,
               padding='same',
               strides=(1, 1, 1),
               )(inputs)

with tf.name_scope('Concat'):
    x = concatenate([vx_3x3_max, vx_3x3_average, vx_3x3, vx_1x1], axis=-1,)


model = Model(inputs=[inputs], outputs=[x])

ResNet

ネットワークの構造で途中でスキップをして上位の層の特徴をなるべく保持する手法になります。

3次元の畳み込みで適用すると下記のようになります。Nはフィルター数です。

kerasで簡易的なResNetを書くと下記のようになります。(簡易版のため、上の図の完全再現ではないです。)

with tf.name_scope('Inputs'):
    inputs = Input((32, 32, 32, 1))

with tf.name_scope('Conv3D'):
    x = Conv3D(filters=32,
           kernel_size=5,
           padding='same',
           strides=(1, 1, 1),
           )(inputs)

with tf.name_scope('Conv3D_3x3'):
    vx_3x3 = Conv3D(filters=16,
           kernel_size=3,
           padding='same',
           strides=(1, 1, 1),
           )(inputs)

with tf.name_scope('Conv3D_1x1'):
    vx_1x1 = Conv3D(filters=16,
           kernel_size=1,
           padding='same',
           strides=(1, 1, 1),
           )(inputs)

with tf.name_scope('Concat'):
    concat_x = concatenate([vx_3x3, vx_1x1],
                           axis=-1,)

with tf.name_scope('Add'):
    x = add([x, concat_x])

model = Model(inputs=[inputs], outputs=[x])

Voxception-ResNet

上記のInceptionV3の構造とResNetを適用したのがVoxception-ResNetになります。レイヤー構造としては下記になります。全体を表示すると分かりづらいので一部を拡大します。

ResNetのレイヤーが最初にあり、得られた特徴量をそのまま渡す層、畳み込み1x1x1を通してフィルター数を減らす層、畳み込み3x3x3を通す層と分かれています。

そのあとにダウンサンプリングの層が存在し、Max Pool, Average Poolを通す層、畳み込み1x1x1を通す層、畳み込み3x3x3を通す層が存在しています。

これらの層を4回繰り返して構成しています。

その他の精度向上のための手法

データ分割方法

前回はシンプルにデータを分割していましたが、ラベルごとにデータの偏りがあるのでsklearnのtest_train_split関数のstratifyオプションを使用してデータの分布が学習、検証、テストで同一になるように分割しています。

https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html

ハイパーパラメータ探索

検証データの精度を元にベイズ最適化によって探索しています。下記のライブラリを使用しています。

https://github.com/SheffieldML/GPyOpt

比較結果

使用データとマシーンのスペックは前回と同様です。

  • 共通設定
    • Optimizer: Adam
    • Data augmentation: 使用していない
  • ハイパーパラメータ
    • VoxNet
    • 学習率:0.00151
    • バッチサイズ:150
    • ドロップアウト率: 0.3
    • 入力データのサイズ: 32 x 32 x 32
    • モデル構造やカーネルサイズ、フィルターサイズ、プーリングサイズ、全結合のサイズは論文に準拠
      • Maturana, Daniel, and Sebastian Scherer. “Voxnet: A 3d convolutional neural network for real-time object recognition.” Intelligent Robots and Systems (IROS), 2015 IEEE/RSJ International Conference on. IEEE, 2015.
    • Voxception-ResNet
    • 学習率:0.00126
    • バッチサイズ:50
    • ドロップアウト率: 0.2
    • 入力データのサイズ: 32 x 32 x 32
    • モデル構造やカーネルサイズ、フィルターサイズ、プーリングサイズ、全結合のサイズは論文に準拠
      • Brock, Andrew, et al. “Generative and discriminative voxel modeling with convolutional neural networks.” arXiv preprint arXiv:1608.04236 (2016).
モデル名 学習データの精度 検証データの精度 テストデータの精度
VoxNet 86% 89% 89%
Voxception-ResNet 98% 97% 97%

分割法を変えたため前回よりVoxNetの精度が向上しています。これは学習、検証、テストのデータ分布が同一となり、学習の性能向上が検証データ、テストデータにも反映しやすくなったためだと思われます。

学習データ、検証データ、テストデータ共に精度はVoxception-ResNetが高くなっており深いレイヤーが3次元においても強力な効果を発揮することが確認できました。

最後に

Kerasを使いこなして3次元だろうがネットワーク構造が複雑であろうが関係なく実装できる方は是非、弊社へ応募してください。

参考

Brock, Andrew, et al. “Generative and discriminative voxel modeling with convolutional neural networks.” arXiv preprint arXiv:1608.04236 (2016).

varunkhare1234/Generative-and-Discriminative-Voxel-Modeling

その他の記事

Other Articles

2019/01/18
SIGGRAPH Asia 2018 参加レポート

2019/01/08
お正月だョ!ECMAScript Proposal全員集合!!

2019/01/08
カブクエンジニア開発合宿に行ってきました 2018秋

2018/12/25
OpenAPI 3 ファーストな Web アプリケーション開発(環境編)

2018/12/23
いまMLKitカスタムモデル(TF Lite)は使えるのか

2018/12/21
[IoT] Docker on JetsonでMQTTを使ってCloud IoT Coreと通信する

2018/12/11
TypeScriptで実現する型安全な多言語対応(Angularを例に)

2018/12/05
GASでCompute Engineの時間に応じた自動停止/起動ツールを作成する 〜GASで簡単に好きなGoogle APIを叩く方法〜

2018/12/02
single quotes な Black を vendoring して packaging

2018/11/04
Node Knockout 2018 に参戦しました

2018/10/24
SIGGRAPH 2018参加レポート-後編(VR/AR)

2018/10/11
Angular 4アプリケーションをAngular 6に移行する

2018/10/05
SIGGRAPH 2018参加レポート-特別編(VR@50)

2018/10/03
Three.jsでVRしたい

2018/10/02
SIGGRAPH 2018参加レポート-前編

2018/09/27
ズーム可能なSVGを実装する方法の解説

2018/09/25
Kerasを用いた複数入力モデル精度向上のためのTips

2018/09/21
競技プログラミングの勉強会を開催している話

2018/09/19
Ladder Netwoksによる半教師あり学習

2018/08/10
「Maker Faire Tokyo 2018」に出展しました

2018/08/02
Kerasを用いた複数時系列データを1つの深層学習モデルで学習させる方法

2018/07/26
Apollo GraphQLでWebサービスを開発してわかったこと

2018/07/19
【深層学習】時系列データに対する1次元畳み込み層の出力を可視化

2018/07/11
きたない requirements.txt から Pipenv への移行

2018/06/26
CSS Houdiniを味見する

2018/06/25
不確実性を考慮した時系列データ予測

2018/06/20
Google Colaboratory を自分のマシンで走らせる

2018/06/18
Go言語でWebAssembly

2018/06/15
カブクエンジニア開発合宿に行ってきました 2018春

2018/06/08
2018 年の tree shaking

2018/06/07
隠れマルコフモデル 入門

2018/05/30
DASKによる探索的データ分析(EDA)

2018/05/10
TensorFlowをソースからビルドする方法とその効果

2018/04/23
EGLとOpenGLを使用するコードのビルド方法〜libGLからlibOpenGLへ

2018/04/23
技術書典4にサークル参加してきました

2018/04/13
Python で Cura をバッチ実行するためには

2018/04/04
ARCoreで3Dプリント風エフェクトを実現する〜呪文による積層造形映像制作の舞台裏〜

2018/04/02
深層学習を用いた時系列データにおける異常検知

2018/04/01
音声ユーザーインターフェースを用いた新方式積層造形装置の提案

2018/03/31
Container builderでコンテナイメージをBuildしてSlackで結果を受け取る開発スタイルが捗る

2018/03/23
ngUpgrade を使って AngularJS から Angular に移行

2018/03/14
Three.jsのパフォーマンスTips

2018/02/14
C++17の新機能を試す〜その1「3次元版hypot」

2018/01/17
時系列データにおける異常検知

2018/01/11
異常検知の基礎

2018/01/09
three.ar.jsを使ったスマホAR入門

2017/12/17
Python OpenAPIライブラリ bravado-core の発展的な使い方

2017/12/15
WebAssembly(wat)を手書きする

2017/12/14
AngularJS を Angular に移行: ng-annotate 相当の機能を TypeScrpt ファイルに適用

2017/12/08
Android Thingsで4足ロボットを作る ~ Android ThingsとPCA9685でサーボ制御)

2017/12/06
Raspberry PIとDialogflow & Google Cloud Platformを利用した、3Dプリンターボット(仮)の開発 (概要編)

2017/11/20
カブクエンジニア開発合宿に行ってきました 2017秋

2017/10/19
Android Thingsを使って3Dプリント戦車を作ろう ① ハードウェア準備編

2017/10/13
第2回 魁!! GPUクラスタ on GKE ~PodからGPUを使う編~

2017/10/05
第1回 魁!! GPUクラスタ on GKE ~GPUクラスタ構築編~

2017/09/13
「Maker Faire Tokyo 2017」に出展しました。

2017/09/11
PyConJP2017に参加しました

2017/09/08
bravado-coreによるOpenAPIを利用したPythonアプリケーション開発

2017/08/23
OpenAPIのご紹介

2017/08/18
EuroPython2017で2名登壇しました。

2017/07/26
3DプリンターでLチカ

2017/07/03
Three.js r86で何が変わったのか

2017/06/21
3次元データへの深層学習の適用

2017/06/01
カブクエンジニア開発合宿に行ってきました 2017春

2017/05/08
Three.js r85で何が変わったのか

2017/04/10
GCPのGPUインスタンスでレンダリングを高速化

2017/02/07
Three.js r84で何が変わったのか

2017/01/27
Google App EngineのFlexible EnvironmentにTmpfsを導入する

2016/12/21
Three.js r83で何が変わったのか

2016/12/02
Three.jsでのクリッピング平面の利用

2016/11/08
Three.js r82で何が変わったのか

2016/12/17
SIGGRAPH 2016 レポート

2016/11/02
カブクエンジニア開発合宿に行ってきました 2016秋

2016/10/28
PyConJP2016 行きました

2016/10/17
EuroPython2016で登壇しました

2016/10/13
Angular 2.0.0ファイナルへのアップグレード

2016/10/04
Three.js r81で何が変わったのか

2016/09/14
カブクのエンジニアインターンシッププログラムについての詩

2016/09/05
カブクのエンジニアインターンとして3ヶ月でやった事 〜高橋知成の場合〜

2016/08/30
Three.js r80で何が変わったのか

2016/07/15
Three.js r79で何が変わったのか

2016/06/02
Vulkanを試してみた

2016/05/20
MakerGoの作り方

2016/05/08
TensorFlow on DockerでGPUを使えるようにする方法

2016/04/27
Blenderの3DデータをMinecraftに送りこむ

2016/04/20
Tensorflowを使ったDeep LearningにおけるGPU性能調査

→
←

関連職種

Recruit

サーバーサイドエンジニア

業務内容

カブク自社で開発・運営しているWebサービス(3Dプリンターなどを活用したデジタル製造サービス)のサーバサイド開発。WebサービスのバックエンドやAPIの設計・実装をお任せします。

フロントエンドエンジニア

業務内容

カブク自社で開発・運営しているWebサービス(3Dプリンターなどを活用したデジタル製造サービス)のWebフロントエンド開発。フロントエンドの設計や実装をお任せします。

機械学習エンジニア

業務内容

機械学習を用いた3Dデータや2Dデータからの情報抽出モデルの構築やセンサーデータの分析モデルの調査・研究・開発。 PoCだけでなく、データの前処理や学習、ハイパーパラメータチューニング、獲得モデルの評価、適用、運用のパイプライン構築まで、機械学習をプロダクション適用する全てのお仕事に携われます。

インターン(エンジニア)

業務内容

カブクの社員と肩を並べて、実業務を中心とした知識やスキルを身につけていただく実践型インターンシップ。スタートアップならではのスピードがあり、ダイナミックな就業経験を体験することが可能です。

→
←

お客様のご要望に「Kabuku」はお応えいたします。
ぜひお気軽にご相談ください。

お電話でも受け付けております
03-6380-2750
営業時間:09:30~18:00
※土日祝は除く