Tensorflowを使ったDeep LearningにおけるGPU性能調査

2016/04/20
このエントリーをはてなブックマークに追加

Kabukuエンジニアブログを始めます

どうも、おはこんばんちわ、カブクの足立です。

カブクのエンジニアって何やっているのか分かりにくいね、と言われ続け、我々のことを知ってもらうためにエンジニアブログなどで発信していかねば。

と、一念発起してはや半年。

忙しさにかまけて先延ばしにし続けるあるある状況を打開すべくKabukuエンジニアブログを始めます!

会社のエンジニアブログは重厚長大で、会社ブランディングを意識し、自社が技術的に優れている事をアピールする風潮があります。我々はそこに風穴を空けるべく、重厚長大ではないブログも書いていこう!

重厚長大じゃなくても世の中のためになることはある。
もっとライトにエンジニアがオフィシャルブログで情報発信していってもいいじゃないか。

と、言い訳たっぷり、ハードルを地中に埋めたところで、記念すべき第一回は会社のビジネス活動に関係ないDeep Learning周りの調査を報告いたします。

GPUってどれぐらい速いの?

最近、Deep Learningが流行っているおかげで注目し学習をはじめる人が増えている様に思います。
そういう方々からよく聞くのが「GPUでどれぐらい速くなるの?」ということです。

Deep Learningは大規模なデータを大規模に計算して、なんか凄い結果を出すというイメージかと思います。
開発者としては「大規模に計算」が気になるところ。
実際、Deep Learning系のフレームワークが提供しているチュートリアルを試すと20〜30分掛かるなんてことは普通です。

なのでGPUを活用することでどれ位速くなるのかが気になるところ。

TensorflowのMNISTでGPU性能調査

TensorflowのMNISTを使ってDeep LearningでGPUがどれだけ性能に影響するのかの調査しました。

性能調査のマシンとソフトの構成は以下のとおりです。

マシン構成

  • CPU: Intel Core i7-6700K [4GHz/4Core/HT/HD530/TDP91W]
  • RAM: 32GB
  • SSD: Intel SSD 730 Series [SSD 240GB]
  • GPU: NVIDIA GeForce GTX980Ti

ソフト構成

  • OS: Ubuntu 14.04.2
  • Driver: nvidia-352
  • Library: CUDA Toolkit(v7.5.18), cuDNN(v7.0)
  • Deep Learning Framework: Tensorflow 0.8rc0(Linux CPU/GPU版)
  • etc: Python2.7.6, Docker 1.10.2

調査方法

MNISTをConvolutional NN(ConvNet)で解くTensorflowのサンプルを実行するだけ。
MNISTで必要とするデータセットはローカルにダウンロード済み(ダウンロード時間は考慮する必要なし)。

CPUを使うTensorflowのフレームワークとGPUを使うTensorflowのフレームワークで性能を比較しました。

下記のコマンドの結果にて実行時間を測定し評価します。

$ time python /usr/local/lib/python2.7/dist-packages/tensorflow/models/image/mnist/convolutional.py

評価結果は測定回数は3回(結果に大きなブレがなかったので3回で打止め)の平均。

結果

CPUで計算した平均時間: 1147.53s
GPUで計算した平均時間: 58.75s

CPUに比べてGPUだと約20倍でした。

詳細

次のtimeコマンドでの計測結果

/usr/bin/time -f "real %e user %U sys %S cpu %P mem %M" python ...

CPUでの計算時間

1: real 1147.89 user 6463.80 sys 488.71 cpu 605% mem 676216
2: real 1148.67 user 6456.33 sys 503.56 cpu 605% mem 676892
3: real 1146.03 user 6456.04 sys 488.36 cpu 605% mem 675524

GPUでの計算時間

1: real 58.86 user 63.80 sys 22.17 cpu 146% mem 919568
2: real 58.91 user 63.66 sys 22.19 cpu 145% mem 925912
3: real 58.47 user 62.88 sys 22.46 cpu 145% mem 920544

NN構造との関係は?

これはTensorflowにおける結果です。他のフレームワークは別途調査が必要です。
ただ、他フレームワークの方がTensorflowよりも高速という情報もあるのでもっと速くなる可能性が高いと思います。

TensorflowのMNISTのサンプルプログラムにおける結果であることも注意が必要です。
ニューラルネットワークの構造としては深いというわけではありません。
構造の深さが性能に与える影響はこの調査では分かりません。

そこで追調査として、ConvNetの深さが性能に与える影響を調査しました。

DeepになるほどGPUが有利

調査対象は引き続きMNISTをConvNetで解くTensorflowのサンプルプログラムです。
このサンプルプログラムのニューラルネットワークの構造はConvolutional Layer(C)にPooling Layer(P)という組み合わせを2回繰り返し、中間層512ノード、出力層10ノードのFully Connected Layer(FC)でクラスタリングするという構造です(下図参照)。

ここでは省略してC1P-C1P-FCと表記します(※ 1はCを1層という意味)。
この構造をよりDeepにした場合、計算時間がどうなるのかを調査します。
これ以上Pooling Layerを増やすと画像がなくなってしまい層を増やせないので、今回はConvolutional Layerを増やします。
前半のConvolutional LayerのChannel数は32とし、後半のそれは64で統一とした構造としました。

以下の様な構造です。

  • 構造0(C1P): C1P-C1P-FC [1]
  • 構造1(C2P): C2P-C2P-FC [3.5]
  • 構造2(C3P): C3P-C3P-FC [5.8]
  • 構造3(C4P): C4P-C4P-FC [8.3]
  • 構造4(C5P): C5P-C5P-FC [10.7]

※Stanfordの講義資料(PDF)を見る限り、C層が1〜5つに対してP層が1つという組合せの事例が多いみたい。

各構造の右側の括弧内の数字はオリジナルのConvNetの構造(C1P)の計算数を1とした時の各構造におけるザックリとした計算数です。
※手計算なので間違ってたらごめんなさい。
※Back Propagationの計算数は考慮していません(順方向の計算数に対して大きくないので無視しました)。

各計算が等しい計算リソースを消費するわけではないので、単純にこの数値から計算コストを粗見積りするのは危険なのですが、オーダー感として参考にできると思います。

結果



GPU(青)の結果は計算数(横軸)に対して計算時間(縦軸)がなだらかに比例しています。
それに対して、CPU(赤)の結果は非常に急な比例関係にあります。
この結果から、GPUの並行計算が大きく効いてそうです。

詳細

GPUとCPUの計算時間の比較を表にまとめました。

CPUの結果がC3Pまでしかありません。
計算時間かかりすぎてデータ取得を諦めました(C3Pですら12時間超…)。
ただ、計算数にほぼ等倍比例する値が実測値で得られたので、C4PとC5Pは推測値を大きくはずさないと思われます。
※推測値は赤文字

Conv層の段数が上がるほど性能比が高くなっています。
これはニューラルネットワークの構造がDeepであるほどGPUによる並行計算の高速化の恩恵が大きいことを意味しています。

C3Pの構造(CPU版で実測した最深の構造)において約45倍となりました。

まとめ

カブクのエンジニアの事を知ってもらうために、Kabukuエンジニアブログはじめました!

Deep LearningフレームワークであるTensorflowのチュートリアルプログラムでCPUを使った実行時間とGPUを使った実行時間の比較調査を行いました。
約20倍GPUを使ったほうが高速でした。
さらにConvNetのConvolutional Layerを深くしていくとその性能比の差は大きくなり、45倍以上になりました。

蛇足

この調査をしている間にTensorflowのバージョンが0.7.1から0.8に上がりました。
その結果、GPUでの計算における実行時間が34%ぐらい短縮(約89s→約58s)しました。

GPUのデバイスのモニタリングとしてNVIDIAのSMI (System Management Interface)というツールが便利です。
とりあえず

$ nvidia-smi dmon -s pucvme

ってコマンドを打てば幸せになれます。本家ドキュメントはこちら→PDF

おわりに

もうCPUでDeep Learningやりたくない

その他の記事

Other Articles

2019/05/20
[Web フロントエンド] 状態更新ロジックをフレームワークから独立させる

2019/04/16
C++のenable_shared_from_thisを使う

2019/04/12
OpenAPI 3 ファーストな Web アプリケーション開発(Python で API 編)

2019/04/08
WebGLでレイマーチングを使ったCSGを実現する

2019/04/02
『エンジニア採用最前線』に感化されて2週間でエンジニア主導の求人票更新フローを構築した話

2019/03/29
その1 Jetson TX2でk3s(枯山水)を動かしてみた

2019/03/27
任意のブラウザ上でJestで書いたテストを実行する

2019/02/08
TypeScript で “radian” と “degree” を間違えないようにする

2019/02/05
Python3でGoogle Cloud ML Engineをローカルで動作する方法

2019/01/18
SIGGRAPH Asia 2018 参加レポート

2019/01/08
お正月だョ!ECMAScript Proposal全員集合!!

2019/01/08
カブクエンジニア開発合宿に行ってきました 2018秋

2018/12/25
OpenAPI 3 ファーストな Web アプリケーション開発(環境編)

2018/12/23
いまMLKitカスタムモデル(TF Lite)は使えるのか

2018/12/21
[IoT] Docker on JetsonでMQTTを使ってCloud IoT Coreと通信する

2018/12/11
TypeScriptで実現する型安全な多言語対応(Angularを例に)

2018/12/05
GASでCompute Engineの時間に応じた自動停止/起動ツールを作成する 〜GASで簡単に好きなGoogle APIを叩く方法〜

2018/12/02
single quotes な Black を vendoring して packaging

2018/11/14
3次元データに2次元データの深層学習の技術(Inception V3, ResNet)を適用

2018/11/04
Node Knockout 2018 に参戦しました

2018/10/24
SIGGRAPH 2018参加レポート-後編(VR/AR)

2018/10/11
Angular 4アプリケーションをAngular 6に移行する

2018/10/05
SIGGRAPH 2018参加レポート-特別編(VR@50)

2018/10/03
Three.jsでVRしたい

2018/10/02
SIGGRAPH 2018参加レポート-前編

2018/09/27
ズーム可能なSVGを実装する方法の解説

2018/09/25
Kerasを用いた複数入力モデル精度向上のためのTips

2018/09/21
競技プログラミングの勉強会を開催している話

2018/09/19
Ladder Netwoksによる半教師あり学習

2018/08/10
「Maker Faire Tokyo 2018」に出展しました

2018/08/02
Kerasを用いた複数時系列データを1つの深層学習モデルで学習させる方法

2018/07/26
Apollo GraphQLでWebサービスを開発してわかったこと

2018/07/19
【深層学習】時系列データに対する1次元畳み込み層の出力を可視化

2018/07/11
きたない requirements.txt から Pipenv への移行

2018/06/26
CSS Houdiniを味見する

2018/06/25
不確実性を考慮した時系列データ予測

2018/06/20
Google Colaboratory を自分のマシンで走らせる

2018/06/18
Go言語でWebAssembly

2018/06/15
カブクエンジニア開発合宿に行ってきました 2018春

2018/06/08
2018 年の tree shaking

2018/06/07
隠れマルコフモデル 入門

2018/05/30
DASKによる探索的データ分析(EDA)

2018/05/10
TensorFlowをソースからビルドする方法とその効果

2018/04/23
EGLとOpenGLを使用するコードのビルド方法〜libGLからlibOpenGLへ

2018/04/23
技術書典4にサークル参加してきました

2018/04/13
Python で Cura をバッチ実行するためには

2018/04/04
ARCoreで3Dプリント風エフェクトを実現する〜呪文による積層造形映像制作の舞台裏〜

2018/04/02
深層学習を用いた時系列データにおける異常検知

2018/04/01
音声ユーザーインターフェースを用いた新方式積層造形装置の提案

2018/03/31
Container builderでコンテナイメージをBuildしてSlackで結果を受け取る開発スタイルが捗る

2018/03/23
ngUpgrade を使って AngularJS から Angular に移行

2018/03/14
Three.jsのパフォーマンスTips

2018/02/14
C++17の新機能を試す〜その1「3次元版hypot」

2018/01/17
時系列データにおける異常検知

2018/01/11
異常検知の基礎

2018/01/09
three.ar.jsを使ったスマホAR入門

2017/12/17
Python OpenAPIライブラリ bravado-core の発展的な使い方

2017/12/15
WebAssembly(wat)を手書きする

2017/12/14
AngularJS を Angular に移行: ng-annotate 相当の機能を TypeScrpt ファイルに適用

2017/12/08
Android Thingsで4足ロボットを作る ~ Android ThingsとPCA9685でサーボ制御)

2017/12/06
Raspberry PIとDialogflow & Google Cloud Platformを利用した、3Dプリンターボット(仮)の開発 (概要編)

2017/11/20
カブクエンジニア開発合宿に行ってきました 2017秋

2017/10/19
Android Thingsを使って3Dプリント戦車を作ろう ① ハードウェア準備編

2017/10/13
第2回 魁!! GPUクラスタ on GKE ~PodからGPUを使う編~

2017/10/05
第1回 魁!! GPUクラスタ on GKE ~GPUクラスタ構築編~

2017/09/13
「Maker Faire Tokyo 2017」に出展しました。

2017/09/11
PyConJP2017に参加しました

2017/09/08
bravado-coreによるOpenAPIを利用したPythonアプリケーション開発

2017/08/23
OpenAPIのご紹介

2017/08/18
EuroPython2017で2名登壇しました。

2017/07/26
3DプリンターでLチカ

2017/07/03
Three.js r86で何が変わったのか

2017/06/21
3次元データへの深層学習の適用

2017/06/01
カブクエンジニア開発合宿に行ってきました 2017春

2017/05/08
Three.js r85で何が変わったのか

2017/04/10
GCPのGPUインスタンスでレンダリングを高速化

2017/02/07
Three.js r84で何が変わったのか

2017/01/27
Google App EngineのFlexible EnvironmentにTmpfsを導入する

2016/12/21
Three.js r83で何が変わったのか

2016/12/02
Three.jsでのクリッピング平面の利用

2016/11/08
Three.js r82で何が変わったのか

2016/12/17
SIGGRAPH 2016 レポート

2016/11/02
カブクエンジニア開発合宿に行ってきました 2016秋

2016/10/28
PyConJP2016 行きました

2016/10/17
EuroPython2016で登壇しました

2016/10/13
Angular 2.0.0ファイナルへのアップグレード

2016/10/04
Three.js r81で何が変わったのか

2016/09/14
カブクのエンジニアインターンシッププログラムについての詩

2016/09/05
カブクのエンジニアインターンとして3ヶ月でやった事 〜高橋知成の場合〜

2016/08/30
Three.js r80で何が変わったのか

2016/07/15
Three.js r79で何が変わったのか

2016/06/02
Vulkanを試してみた

2016/05/20
MakerGoの作り方

2016/05/08
TensorFlow on DockerでGPUを使えるようにする方法

2016/04/27
Blenderの3DデータをMinecraftに送りこむ

→
←

関連職種

Recruit

バックエンドエンジニア(Python・Go)

業務内容

当ポジションは弊社Webサービスのバックエンド機能設計及び実装を担当します。 サービス毎の開発チームで2週間スプリントのスクラム開発を実施しています。 週次で開発チームミーティングを実施し、実装設計の相談や工数見積もりを行います。 全ての開発コードはレビューと自動テストによって品質を保っています。 また、リファクタリングやフレームワークのバージョンアップも開発フローに組込み、技術的負債を放置しない開発を目指しています。

フロントエンドエンジニア(TypeScript)

業務内容

当ポジションは弊社Webサービスのフロントエンド機能設計及び実装を担当します。 サービス毎の開発チームで2週間スプリントのスクラム開発を実施しています。 週次で開発チームミーティングを実施し、実装設計の相談や工数見積もりを行います。 全ての開発コードはレビューと自動テストによって品質を保っています。 また、リファクタリングやフレームワークのバージョンアップも開発フローに組込み、技術的負債を放置しない開発を目指しています。

機械学習エンジニア

業務内容

センサーデータの分析モデルの調査・研究・開発。 Kabuku Connectの製造データ(3D、2D)から情報を抽出するモデルの構築。 データの前処理や学習、ハイパーパラメータチューニング、獲得モデルの評価、プロダクションのデータパイプラインとの連携をお願いします。

インターン(Webエンジニア)

業務内容

業務から独立した、調査・研究系のタスクをおまかせしています。コードレビュー、 社内での報告会、 ブログ記事執筆を通して着実にスキルアップしていただくことを目指しています。 (希望があれば、プロダクトの開発業務もおまかせします。)

→
←

お客様のご要望に「Kabuku」はお応えいたします。
ぜひお気軽にご相談ください。

お電話でも受け付けております
03-6380-2750
営業時間:09:30~18:00
※土日祝は除く