3次元データに2次元データの深層学習の技術(Inception V3, ResNet)を適用
はじめに
カブクで機械学習エンジニアをしている大串正矢です。今回は3次元データに2次元データの深層学習の技術(Inception V3, ResNet)を適用した結果について書きます。
背景
深層学習のモデルは層が深ければ深いほど精度が良いことが知られていますが下記に挙げる問題点があります。
- 層が深くなるにつれて抽象的な情報のみ伝搬されて、エッジなどの情報が欠落する
- 層が深くなればなるほどパラメータ数が増大し、学習の難易度が上がる
3次元データでも同様の問題が発生するので2次元データで使用されている層を深くするための技術を3次元データに適用したのが今回のブログの内容になります。
手法
前処理と3次元CNNは前回の記事と同一になります。
https://www.kabuku.co.jp/software_engineer/deep-learning-for-3d-model
VoxNet
前回の記事と同様なので割愛します。
https://www.kabuku.co.jp/software_engineer/deep-learning-for-3d-model
2次元データの深層学習の技術(Inception V3, ResNet)
2次元データの深層学習の技術(Inception V3, ResNet)について説明します。
InceptionV3
InceptionV3で使用されている技術としてスパースな畳込みと1×1の畳み込みがあります。これらは深い層を実現するためのパラメータ削減の技術になります。
深い層ほどパラメータが多くなるため、そのパラメータを減らすための工夫になります。
2次元データでチャネルを考慮すると畳み込みのパラメータ数は下記になります。
- 畳み込みのパラメータ数:
カーネルサイズの2乗 * 入力チャネル数 * 出力チャネル数
スパースな畳み込み
- チャネルごとにカーネルサイズを変更してパラメータ数を減らす工夫
- 例(2次元の場合):カーネルサイズ5で出力チャネルを2にした場合
- 入力チャネル数3
- 出力チャネル数2
5 * 5 * 3 * 2 = 150
- 例(2次元の場合):カーネルサイズ5とカーネルサイズ3を用意して出力チャネルごとに与えた場合
- 入力チャネル数3
- 出力チャネル数2(チャネルごとにカーネルサイズが異なる)
5 * 5 * 3 * 1 + 3 * 3 * 3 * 1 = 102
出力チャネルごとにカーネルサイズを変更することでパラメータサイズを減らして多様なカーネルサイズを適用することが可能になる技術です。
3次元で適用すると下記のような計算になります。
– 例(3次元の場合):カーネルサイズ5で出力チャネルを2にした場合
– 入力チャネル数3
– 出力チャネル数1
– 5 * 5 * 5 * 3 * 2 = 750
– 例(3次元の場合):カーネルサイズ5とカーネルサイズ3を用意して出力チャネルごとに与えた場合
– 入力チャネル数3
– 出力チャネル数2(チャネルごとにカーネルサイズが異なる)
– 5 * 5 * 5 * 3 * 1 + 3 * 3 * 3 * 3 * 1 = 456
2次元のケースだと32%の削減効果がありましたが、3次元だと40%近い削減効果がありました。スパースな畳み込みは3次元データだとより効果を発揮することが分かります。
下記のようなイメージになります。
keras
で簡易的なスパースな畳み込みを書くと下記のようになります。
with tf.name_scope('Inputs'):
inputs = Input((32, 32, 32, 1))
with tf.name_scope('Conv3D_3x3'):
vx_3x3 = Conv3D(filters=32,
kernel_size=3,
padding='same',
strides=(1, 1, 1),
)(inputs)
with tf.name_scope('Conv3D_1x1'):
vx_1x1 = Conv3D(filters=32,
kernel_size=1,
padding='same',
strides=(1, 1, 1),
)(inputs)
with tf.name_scope('Concat'):
x = concatenate([vx_3x3, vx_1x1], axis=-1,)
model = Model(inputs=[inputs], outputs=[x])
1×1の畳み込み
1×1のコンボリューションを使用してチャネル数を削減する手法になります。これによって特徴マップのサイズを変更せずにパラメータ数を減らすことができます。
- 例(2次元の場合):
- 特徴マップ:
64 * 64 * 100
- 畳み込みサイズ:
1 * 1 * 20
- 出力特徴マップ:
64 * 64 * 20
- 特徴マップ:
- 例(3次元の場合):
- 特徴マップ:
64 * 64 * 64 * 100
- 畳み込みサイズ:
1 * 1 * 1 * 20
- 出力特徴マップ:
64 * 64 * 64 * 20
- 特徴マップ:
2次元と3次元共にパラメータ削減率は80%となっています。
ダウンサンプリング
スパースな畳み込みに加えてパラメータサイズを減らすためにMaxPool、Average Poolをかける処理を加えます。
下記のようなイメージになります。
keras
で簡易的なダウンサンプリングを書くと下記のようになります。
with tf.name_scope('Inputs'):
inputs = Input((32, 32, 32, 1))
with tf.name_scope('Conv3D_3x3'):
vx_3x3 = Conv3D(filters=32,
kernel_size=3,
padding='same',
strides=(1, 1, 1),
)(inputs)
with tf.name_scope(
'MaxPooling3D'):
vx_3x3_max = MaxPooling3D(
pool_size=(1, 1, 1),
strides=None,
padding='same',
data_format='channels_last',
)(vx_3x3)
with tf.name_scope('Conv3D_3x3_2'):
vx_3x3 = Conv3D(filters=32,
kernel_size=3,
padding='same',
strides=(1, 1, 1),
)(inputs)
with tf.name_scope(
'AveragePooling3D'):
vx_3x3_average = AveragePooling3D(
pool_size=(1, 1, 1),
strides=None,
padding='same',
data_format='channels_last',
)(vx_3x3)
with tf.name_scope('Conv3D_3x3_2'):
vx_3x3 = Conv3D(filters=32,
kernel_size=3,
padding='same',
strides=(1, 1, 1),
)(inputs)
with tf.name_scope('Conv3D_1x1'):
vx_1x1 = Conv3D(filters=32,
kernel_size=3,
padding='same',
strides=(1, 1, 1),
)(inputs)
with tf.name_scope('Concat'):
x = concatenate([vx_3x3_max, vx_3x3_average, vx_3x3, vx_1x1], axis=-1,)
model = Model(inputs=[inputs], outputs=[x])
ResNet
ネットワークの構造で途中でスキップをして上位の層の特徴をなるべく保持する手法になります。
3次元の畳み込みで適用すると下記のようになります。Nはフィルター数です。
keras
で簡易的なResNetを書くと下記のようになります。(簡易版のため、上の図の完全再現ではないです。)
with tf.name_scope('Inputs'):
inputs = Input((32, 32, 32, 1))
with tf.name_scope('Conv3D'):
x = Conv3D(filters=32,
kernel_size=5,
padding='same',
strides=(1, 1, 1),
)(inputs)
with tf.name_scope('Conv3D_3x3'):
vx_3x3 = Conv3D(filters=16,
kernel_size=3,
padding='same',
strides=(1, 1, 1),
)(inputs)
with tf.name_scope('Conv3D_1x1'):
vx_1x1 = Conv3D(filters=16,
kernel_size=1,
padding='same',
strides=(1, 1, 1),
)(inputs)
with tf.name_scope('Concat'):
concat_x = concatenate([vx_3x3, vx_1x1],
axis=-1,)
with tf.name_scope('Add'):
x = add([x, concat_x])
model = Model(inputs=[inputs], outputs=[x])
Voxception-ResNet
上記のInceptionV3の構造とResNetを適用したのがVoxception-ResNetになります。レイヤー構造としては下記になります。全体を表示すると分かりづらいので一部を拡大します。
ResNetのレイヤーが最初にあり、得られた特徴量をそのまま渡す層、畳み込み1x1x1を通してフィルター数を減らす層、畳み込み3x3x3を通す層と分かれています。
そのあとにダウンサンプリングの層が存在し、Max Pool, Average Poolを通す層、畳み込み1x1x1を通す層、畳み込み3x3x3を通す層が存在しています。
これらの層を4回繰り返して構成しています。
その他の精度向上のための手法
データ分割方法
前回はシンプルにデータを分割していましたが、ラベルごとにデータの偏りがあるのでsklearnのtest_train_split
関数のstratify
オプションを使用してデータの分布が学習、検証、テストで同一になるように分割しています。
https://scikit-learn.org/stable/modules/generated/sklearn.model_selection.train_test_split.html
ハイパーパラメータ探索
検証データの精度を元にベイズ最適化によって探索しています。下記のライブラリを使用しています。
https://github.com/SheffieldML/GPyOpt
比較結果
使用データとマシーンのスペックは前回と同様です。
- 共通設定
- Optimizer: Adam
- Data augmentation: 使用していない
- ハイパーパラメータ
- VoxNet
- 学習率:0.00151
- バッチサイズ:150
- ドロップアウト率: 0.3
- 入力データのサイズ: 32 x 32 x 32
- モデル構造やカーネルサイズ、フィルターサイズ、プーリングサイズ、全結合のサイズは論文に準拠
- Maturana, Daniel, and Sebastian Scherer. “Voxnet: A 3d convolutional neural network for real-time object recognition.” Intelligent Robots and Systems (IROS), 2015 IEEE/RSJ International Conference on. IEEE, 2015.
- Voxception-ResNet
- 学習率:0.00126
- バッチサイズ:50
- ドロップアウト率: 0.2
- 入力データのサイズ: 32 x 32 x 32
- モデル構造やカーネルサイズ、フィルターサイズ、プーリングサイズ、全結合のサイズは論文に準拠
- Brock, Andrew, et al. “Generative and discriminative voxel modeling with convolutional neural networks.” arXiv preprint arXiv:1608.04236 (2016).
モデル名 | 学習データの精度 | 検証データの精度 | テストデータの精度 |
---|---|---|---|
VoxNet | 86% | 89% | 89% |
Voxception-ResNet | 98% | 97% | 97% |
分割法を変えたため前回よりVoxNetの精度が向上しています。これは学習、検証、テストのデータ分布が同一となり、学習の性能向上が検証データ、テストデータにも反映しやすくなったためだと思われます。
学習データ、検証データ、テストデータ共に精度はVoxception-ResNetが高くなっており深いレイヤーが3次元においても強力な効果を発揮することが確認できました。
最後に
Kerasを使いこなして3次元だろうがネットワーク構造が複雑であろうが関係なく実装できる方は是非、弊社へ応募してください。
参考
Brock, Andrew, et al. “Generative and discriminative voxel modeling with convolutional neural networks.” arXiv preprint arXiv:1608.04236 (2016).
その他の記事
Other Articles
関連職種
Recruit