第1回魁！！ GPUクラスタ on GKE ~GPUクラスタ構築編~

2017/10/05

ドーモ、動物ファーストエンジニアの吉海です。
今回は魁読者必見のGoogle Container Engine(通称GKE)を使ってGPUクラスタを構築する方法をご紹介します。
GKEは最近のアップデートによりアルファクラスタでGPUクラスタが構築出来るようになりました！ただ、GPUが使えるようになるまでに一手間あったので、それをまとめてブログを書いてみました。

今回の記事は2部構成になっています。

第1回 GPUクラスタ構築編(本記事)
第2回 PodからGPUを使う方法

本記事の構成は以下のようになっています。

なぜGPUクラスタ on GKEなのか
GPUクラスタの作成手順

対象読者

Kubernetesを使ったことがある方
Google Container Engineを使ったことがある方
魁たい方

検証環境

Kubernetes側の環境

Google Container Engine 1.7.5
Kubernetes 1.7.5

クライアントの環境

macOS Sierra 10.12.6
kubectl 1.7.3

なぜGPUクラスタ on GKEなのか

GPUクラスタの構築方法の説明に入る前に、なぜGPUクラスタ on GKEが良いのかをご説明します。

GPUの重要の高まり

最近は空前の機械学習ブームでGPUの需要が高いです。
Kubernetesはスケールさせやすく需要に応じて増やすことが出来るため、大量の計算リソースが必要な機械学習との相性がいいです。
弊社では機械学習だけでなく、3Dモデルのレンダリング処理にもGPUを活用しています。

アルファクラスタでGPUが使えるように

今までのGKEはGPUを搭載したノードを扱うことが出来なかったのですが、最近のアップデートでアルファクラスタであればGPUのノードが使えるようになりました。
ただ、デメリットとしてアルファクラスタには下記の制限があります。

アルファクラスタは30日で自動削除。土下座しても削除されます。
アップグレード不可
Container Engine SLAの対象外

その為、プロダクション環境には向いていません。

GPUクラスタの作成手順

作成手順には大きく分けて２つあります。

GPUのノードでクラスタ作成
Nvidiaのドライバーのインストール

GPUのノードを含んだクラスタは簡単に作れるのですが、Nvidiaのドライバーのインストールはユーザーが行う必要があります。
そのため、クラスタ作成とドライバーのインストールの２つの手順が必要です。

GPUのノードでクラスタ作成

それではGPUのノードで構成されたクラスタを作って行きましょう。GKEで使えるGPUには２種類あります。使えるGPUはゾーンによって異なるので注意して下さい。
クラスタの作成には以下のgcloudコマンドを使います。

$ gcloud alpha container clusters create gpu-cluster 
--accelerator type=nvidia-tesla-k80,count=1 --zone=asia-east1-a --enable-kubernetes-alpha

gcloud alpha container clusters createはGKEのクラスタを作るコマンドです。
このコマンドのオプション–accelerator typeに使いたいGPUのタイプ指定、countにGPU数を指定して下さい。上記の例ではNvidia tesla k80をタイプに指定、数を1に指定しています。
コマンドの最後の–enable-kubernetes-alphaは指定しないとアルファの機能が使えないので、これは必ず指定して下さい。
クラスタの作成はこれで完了なので、次にドライバーのインストール手順について解説します。

2. Nvidiaのドライバーのインストール

先程作成したクラスタのGPUノードの全てにNvidiaのドライバーをインストールします。ドライバのインストール方法はいくつかあるのですが、今回はDaemonSetを使った方法をご紹介します。DaemonSetを使う理由は以下の通りです。

GKEのノード（GCEのVM）はGKEが用意したインスタンステンプレートを使うのでVM作成時に自動的にドライバーをインストールするようなシェルを仕込むのが困難
ノードの全てにSSHで入って手動でドライバー入れるのは辛い
DaemonSetを使えばK8Sの仕組みで各ノードで自動的に実行される

上記の理由によりDaemonSetを使います。おそらく、GKEのノードにドライバーなどを入れたい場合はDaemonSetを使うのが一番いい方法だと思います。
ちなみにDaemonSetはKubernetesの機能で、全て(or いくつか)のノードでPodを実行する仕組みです。そのためGPUのノードが後から増えた場合でも自動的にドライバーがインストールされます。

今回は下記のリポジトリにあるDaemonSetとDockerfileを使いドライバーをインストールします。

Nvidia GPU Installer for Container Optimized OS in Container Engine
インストール手順は以下のとおりです。

DaemonSetで使うDocker Imageのbuildとpush
DaemonSetをデプロイ

DaemonSetで使うDocker Imageのビルドとpush

それではDocker Imageをビルドしていきましょう。まず最初に上記のリポジトリをgit cloneします。

$ git clone git@github.com:ContainerEngine/accelerators.git

imageのbuildに入る前に違うバージョンのドライバーをインストールしたい場合は
accelerators/cos-nvidia-gpu-installer/installer.shの下記の箇所を編集して下さい。
現在(2017/10/02)では375.26のバージョンのNvidiaのドライバーがインストールされるようになっています。

accelerators/cos-nvidia-gpu-installer/installer.sh

51: NVIDIA_DRIVER_VERSION="375.26" # ここでインストールしたいバージョンを指定
55: NVIDIA_DRIVER_MD5SUM="d60819b2e377398c7296999ab5e7c1a4" #ここをインストールしたいバージョンのハッシュ値に変更。
97: echo "${NVIDIA_DRIVER_MD5SUM} ${pkg_name}" | md5sum --check # 上のハッシュ値の指定が面倒であれば、ここをコメントアウトすれば大丈夫です。

それではimageをbuildしてpushしましょう。
今回はGoogle Cloud Platform(GCP)のContainer Registry にpushするための例をご紹介します。{project name}の所は、各自書き換えて下さい。

$ cd accelerators/cos-nvidia-gpu-installer
$ docker build -t gcr.io/{project name}/cos-nvidia-installer .
$ gcloud docker -- push gcr.io/{project name}/cos-nvidia-installer

DaemonSetをデプロイ

次にDamemoSetをデプロイしていきましょう。下記のYAMLをコピー＆ペーストして、image: の箇所を先程pushしたimage名に書き換え後にdaemonset.yamlという名前で保存して下さい。

apiVersion: extensions/v1beta1
kind: DaemonSet
metadata:
    name: cos-nvidia-installer
    namespace: kube-system
spec:
  template:
    metadata:
      labels:
        name: cos-nvidia-installer
    spec:
      hostNetwork: true
      hostPID: true
      volumes:
      - name: dev
        hostPath:
          path: /dev
      - name: nvidia-overlay
        hostPath:
          path: /home/kubernetes/bin/nvidia
      - name: os-release
        hostPath:
          path: /etc/os-release
      - name: sysrq
        hostPath:
          path: /proc/sysrq-trigger
      containers:
      - image: gcr.io/{project name}/cos-nvidia-installer # ここで先程、pushしたimageを指定
        command: ["/bin/sh", "-c"]
        args: ["usr/bin/nvidia-installer.sh && sleep infinity"]
        name: nvidia-driver-installer
        resources:
          requests:
            cpu: 0.15
        securityContext:
          privileged: true
        env:
          - name: BASE_DIR
            value: "/rootfs/nvidia"
        volumeMounts:
        - name: nvidia-overlay
          mountPath: /rootfs/nvidia
        - name: dev
          mountPath: /dev
        - name: os-release
          mountPath: /rootfs/etc/os-release
        - name: sysrq
          mountPath: /sysrq

先程保存したdamemonset.yamlをクラスタにデプロイします。

$ kubectl apply -f daemonset.yaml

デプロイが出来たかをgetコマンドで確認してみましょう。

$ kubectl get pod --namespace=kube-system
NAME READY STATUS RESTARTS AGE
cos-nvidia-installer-kltzw 0/1 ContainerCreating 0 19s

デプロイが上手く行っていればcos-nvidia-installerという名前のpodを表示されていると思います。
DaemonSetの実行状況が知りたければ、kubectl log コマンドで確認が出来ます。PodのSTATUSがRunningになってから下記のコマンドを使ってlogを確認してみましょう。

$ kubectl logs pod/cos-nvidia-installer-kltzw --namespace=kube-system

DaemonSet内のシェルスクリプトの処理が終了していれば下記のようなlogが得られると思います。

+ chmod -R a+rx /rootfs/nvidia/lib
+ chmod -R a+rx /rootfs/nvidia/bin
Sending SIGTERM to kubelet
+ restart_kubelet
+ '[' false == true ']'
+ echo 'Sending SIGTERM to kubelet'
+ pidof kubelet
+ pkill -SIGTERM kubelet

まとめ

これで、GPUクラスタの構築が完了しました。次の記事ではPodからGPUを使う方法について解説します。

その他の記事

Other Articles

2022/06/03
拡張子に Web アプリを関連付ける File Handling API の使い方

2022/03/22
<selectmenu> タグできる子; <select> に代わるカスタマイズ可能なドロップダウンリスト

2022/03/02
Java 15 のテキストブロックを横目に C# 11 の生文字列リテラルを眺めて ECMAScript String dedent プロポーザルを想う

2021/10/13
Angularによる開発をできるだけ型安全にするためのKabukuでの取り組み

2021/09/30
さようなら、Node.js

2021/09/30
Union 型を含むオブジェクト型を代入するときに遭遇しうるTypeScript型チェックの制限について

2021/09/16
[ECMAScript] Pipe operator 論争まとめ – F# か Hack か両方か

2021/07/05
TypeScript v4.3 の機能を使って immutable ライブラリの型付けを頑張る

2021/06/25
Denoでwasmを動かすだけの話

2021/05/18
DOMMatrix: 2D / 3D 変形（アフィン変換）の行列を扱う DOM API

2021/03/29
GoのWASMがライブラリではなくアプリケーションであること

2021/03/26
Pythonプロジェクトの共通のひな形を作る

2021/03/25
インラインスタイルと Tailwind CSS と Tailwind CSS 入力補助ライブラリと Tailwind CSS in JS

2021/03/23
Serverless NEGを使ってApp Engineにカスタムドメインをワイルドカードマッピング

2021/01/07
esbuild の機能が足りないならプラグインを自作すればいいじゃない

2020/08/26
TypeScriptで関数の部分型を理解しよう

2020/06/16
[Web フロントエンド] esbuild が爆速すぎて webpack / Rollup にはもう戻れない

2020/03/19
[Web フロントエンド] Elm に心折れ Mint に癒しを求める

2020/02/28
さようなら、TypeScript enum

2020/02/14
受付のLooking Glassに加えたひと工夫

2020/01/28
カブクエンジニア開発合宿に行ってきました 2020冬

2020/01/30
Renovateで依存ライブラリをリノベーションしよう〜 Bitbucket編〜

2019/12/27
Cloud Tasks でも deferred ライブラリが使いたい

2019/12/25
*, ::before, ::after { flex: none; }

2019/12/21
Top-level awaitとDual Package Hazard

2019/12/20
Three.jsからWebGLまで行きて帰りし物語

2019/12/18
Three.jsに入門＋手を検出してAR.jsと組み合わせてみた

2019/12/04
WebXR AR Paint その２

2019/11/06
GraphQLの入門書を翻訳しました

2019/09/20
Kabuku Connect 即時見積機能のバックエンド開発

2019/08/14
Maker Faire Tokyo 2019でARゲームを出展しました

2019/07/25
夏休みだョ！WebAssembly Proposal全員集合！！

2019/07/08
鵜呑みにしないで！ —— 書籍『クリーンアーキテクチャ』所感 ≪null 篇≫

2019/07/03
W3C Workshop on Web Games参加レポート

2019/06/28
TypeScriptでObject.assign()に正しい型をつける

2019/06/25
カブクエンジニア開発合宿に行ってきました 2019夏

2019/06/21
Hola! KubeCon Europe 2019の参加レポート

2019/06/19
Clean Resume きれいな環境できれいな履歴書を作成する

2019/05/20
[Web フロントエンド] 状態更新ロジックをフレームワークから独立させる

2019/04/16
C++のenable_shared_from_thisを使う

2019/04/12
OpenAPI 3 ファーストな Web アプリケーション開発（Python で API 編）

2019/04/08
WebGLでレイマーチングを使ったCSGを実現する

2019/03/29
その1 Jetson TX2でk3s(枯山水)を動かしてみた

2019/04/02
『エンジニア採用最前線』に感化されて2週間でエンジニア主導の求人票更新フローを構築した話

2019/03/27
任意のブラウザ上でJestで書いたテストを実行する

2019/02/08
TypeScript で “radian” と “degree” を間違えないようにする

2019/02/05
Python3でGoogle Cloud ML Engineをローカルで動作する方法

2019/01/18
SIGGRAPH Asia 2018 参加レポート

2019/01/08
お正月だョ！ECMAScript Proposal全員集合！！

2019/01/08
カブクエンジニア開発合宿に行ってきました 2018秋

2018/12/25
OpenAPI 3 ファーストな Web アプリケーション開発（環境編）

2018/12/23
いまMLKitカスタムモデル（TF Lite）は使えるのか

2018/12/21
[IoT] Docker on JetsonでMQTTを使ってCloud IoT Coreと通信する

2018/12/11
TypeScriptで実現する型安全な多言語対応（Angularを例に）

2018/12/05
GASでCompute Engineの時間に応じた自動停止/起動ツールを作成する〜GASで簡単に好きなGoogle APIを叩く方法〜

2018/12/02
single quotes な Black を vendoring して packaging

2018/11/14
3次元データに2次元データの深層学習の技術(Inception V3, ResNet)を適用

2018/11/04
Node Knockout 2018 に参戦しました

2018/10/24
SIGGRAPH 2018参加レポート-後編（VR/AR）

2018/10/11
Angular 4アプリケーションをAngular 6に移行する

2018/10/05
SIGGRAPH 2018参加レポート-特別編（VR@50）

2018/10/03
Three.jsでVRしたい

2018/10/02
SIGGRAPH 2018参加レポート-前編

2018/09/27
ズーム可能なSVGを実装する方法の解説

2018/09/25
Kerasを用いた複数入力モデル精度向上のためのTips

2018/09/21
競技プログラミングの勉強会を開催している話

2018/09/19
Ladder Netwoksによる半教師あり学習

2018/08/10
「Maker Faire Tokyo 2018」に出展しました

2018/08/02
Kerasを用いた複数時系列データを1つの深層学習モデルで学習させる方法

2018/07/26
Apollo GraphQLでWebサービスを開発してわかったこと

2018/07/19
【深層学習】時系列データに対する１次元畳み込み層の出力を可視化

2018/07/11
きたない requirements.txt から Pipenv への移行

2018/06/26
CSS Houdiniを味見する

2018/06/25
不確実性を考慮した時系列データ予測

2018/06/20
Google Colaboratory を自分のマシンで走らせる

2018/06/18
Go言語でWebAssembly

2018/06/15
カブクエンジニア開発合宿に行ってきました 2018春

2018/06/08
2018 年の tree shaking

2018/06/07
隠れマルコフモデル入門

2018/05/30
DASKによる探索的データ分析(EDA)

2018/05/10
TensorFlowをソースからビルドする方法とその効果

2018/04/23
EGLとOpenGLを使用するコードのビルド方法〜libGLからlibOpenGLへ

2018/04/23
技術書典4にサークル参加してきました

2018/04/13
Python で Cura をバッチ実行するためには

2018/04/04
ARCoreで3Dプリント風エフェクトを実現する〜呪文による積層造形映像制作の舞台裏〜

2018/04/02
深層学習を用いた時系列データにおける異常検知

2018/04/01
音声ユーザーインターフェースを用いた新方式積層造形装置の提案

2018/03/31
Container builderでコンテナイメージをBuildしてSlackで結果を受け取る開発スタイルが捗る

2018/03/23
ngUpgrade を使って AngularJS から Angular に移行

2018/03/14
Three.jsのパフォーマンスTips

2018/02/14
C++17の新機能を試す〜その1「3次元版hypot」

2018/01/17
時系列データにおける異常検知

2018/01/11
異常検知の基礎

2018/01/09
three.ar.jsを使ったスマホAR入門

2017/12/17
Python OpenAPIライブラリ bravado-core の発展的な使い方

2017/12/15
WebAssembly（wat）を手書きする

2017/12/14
AngularJS を Angular に移行: ng-annotate 相当の機能を TypeScrpt ファイルに適用

2017/12/08
Android Thingsで4足ロボットを作る ~ Android ThingsとPCA9685でサーボ制御)

2017/12/06
Raspberry PIとDialogflow & Google Cloud Platformを利用した、3Dプリンターボット(仮)の開発 (概要編)

2017/11/20
カブクエンジニア開発合宿に行ってきました 2017秋

2017/10/19
Android Thingsを使って3Dプリント戦車を作ろう ① ハードウェア準備編

2017/10/13
第2回魁！！ GPUクラスタ on GKE ~PodからGPUを使う編~

2017/09/13
「Maker Faire Tokyo 2017」に出展しました。

2017/09/11
PyConJP2017に参加しました

2017/09/08
bravado-coreによるOpenAPIを利用したPythonアプリケーション開発

2017/08/23
OpenAPIのご紹介

2017/08/18
EuroPython2017で2名登壇しました。

2017/07/26
3DプリンターでLチカ

2017/07/03
Three.js r86で何が変わったのか

2017/06/21
3次元データへの深層学習の適用

2017/06/01
カブクエンジニア開発合宿に行ってきました 2017春

2017/05/08
Three.js r85で何が変わったのか

2017/04/10
GCPのGPUインスタンスでレンダリングを高速化

2017/02/07
Three.js r84で何が変わったのか

2017/01/27
Google App EngineのFlexible EnvironmentにTmpfsを導入する

2016/12/21
Three.js r83で何が変わったのか

2016/12/02
Three.jsでのクリッピング平面の利用

2016/11/08
Three.js r82で何が変わったのか

2016/12/17
SIGGRAPH 2016 レポート

2016/11/02
カブクエンジニア開発合宿に行ってきました 2016秋

2016/10/28
PyConJP2016 行きました

2016/10/17
EuroPython2016で登壇しました

2016/10/13
Angular 2.0.0ファイナルへのアップグレード

2016/10/04
Three.js r81で何が変わったのか

2016/09/14
カブクのエンジニアインターンシッププログラムについての詩

2016/09/05
カブクのエンジニアインターンとして3ヶ月でやった事　〜高橋知成の場合〜

2016/08/30
Three.js r80で何が変わったのか

2016/07/15
Three.js r79で何が変わったのか

2016/06/02
Vulkanを試してみた

2016/05/20
MakerGoの作り方

2016/05/08
TensorFlow on DockerでGPUを使えるようにする方法

2016/04/27
Blenderの3DデータをMinecraftに送りこむ

2016/04/20
Tensorflowを使ったDeep LearningにおけるGPU性能調査