EGLとOpenGLを使用するコードのビルド方法〜libGLからlibOpenGLへ

2018/04/23
このエントリーをはてなブックマークに追加

はじまりは以前書いたブログへの質問

カブクの甘いもの担当の高橋憲一です。

1年程前にこのカブクエンジニアブログで「GCPのGPUインスタンスでレンダリングを高速化」という記事を書きました。

EGLを使うことでX Serverを起動しなくてもサーバーサイドでGPUを活用した高速3Dレンダリングができるようにするという話で、現在は同僚の尽力によりGKEクラスタ上で実運用に載っており、カブクが提供しているサービスでは、3DモデルがアップロードされるとGPU搭載インスタンスでプレビュー画像が高速レンダリングされるようになっています。

…というように安定運用状態で安心していたところ、ブログ記事を読んだ方から「この通りにしても動かないのだけどどうしたら良いのでしょう」という質問が届きました。
現象としては、EGLの一連の手続きは問題なく実行されるもののglCheckFramebufferStatus()GL_FRAMEBUFFERを渡して呼んだ際の戻り値がGL_FRAMEBUFFER_COMPLETEにならない、すなわちOpenGLのフレームバッファオブジェクトの生成に失敗する…という状態でした。

原因の調査と問題の解決

詳細を調べてみると、eglGetError()やglGetError()でエラーの詳細を見ても全て正常終了となるのですが、glGetString(GL_VERSION)で取得できるはずの文字列はnullで返ってきます。
(正しく実行されると"4.5.0 NVIDIA 384.111"というような文字列が返ります)

全く同じコードが先方では動かず、カブクの手元の環境では正しく動くという状況だったため、両者の環境の差を比較すると、
カブク:

  • GPU
    • ローカルPC GTX980
    • クラウド(GCP) K80
  • OS: Ubuntu 16.04 LTS
  • NVIDIAドライバのバージョン: 384

質問者:

  • GPU
    • ローカルPC GTX1060
    • クラウド(AWS) K80
  • OS: Ubuntu 16.04 LTS
  • NVIDIAドライバのバージョン: 390

当初はGPUのアーキテクチャの差も疑ったのですが、GCPとAWSの違いがあるとは言えクラウド側はK80で同じですし、どうやらNVIDIAのGPUドライバのバージョンが異なるところに原因がありそうだということが分かりました。

現在運用で使用しているドライバのバージョンは384、質問してくれた方の環境は390ということで、カブクの環境より新しいバージョンが使われていました。
そこで最初に伝えた解決策としては「ドライバのバージョンを384にしてみてください」というもので、幾つかやり取りがあった後に「動きました!」という連絡を頂きました。

追加調査と衝撃の事実

動いたということで一安心…したかったのですが、どうもスッキリしません。
手元で安定運用できているとはいえ、いつまでも古いバージョンのドライバを使い続けるというのも気持ちが良いものではありませんし、新しいアーキテクチャのGPUが出てきた時に古いドライバでの動作はサポートされない可能性もあります。

そこで、あらためてGCP上に新しいGPUインスタンスを立てて真っさらな状態から試してみることにしました。Googleの公式解説の通りにドライバのセットアップを進めてみると、GPUドライバのバージョンは390となり、この環境で先ほどのコードを実行すると同様の現象が再現しました。

回避策や同様の現象の報告は無いのかあらためて調べてみると、
NVIDIAのDeveloper blogに「Linking OpenGL for Server-Side Rendering」という記事を見つけました。
対応としては、「リンクの際のライブラリとしてlibGL.soではなく、libOpenGL.soを指定しなさい」というものです。
これまでは

g++ test_egl.cc -o test_egl -lEGL -lGL

というようにしてlibEGL.soとlibGL.soをリンクするライブラリとして指定していました。
「え?いつの間にそんな話になっていたの?」と思いながら下記のようにしてlibEGL.soとlibOpenGL.soをリンクするように指定してビルドしてみると…

g++ test_egl.cc -o test_egl -lEGL -lOpenGL -L/usr/lib/nvidia-390

ドライバのバージョンが390の環境で実行しても無事に正しく動きました!

SGIのIRIXを使っていた古より、unix環境でOpenGLを使う時はリンクのオプションには -lGL を指定してきたものですが、あれから早20数年。。。NVIDIAのブログ記事には “This post is about how to correctly link a modern OpenGL application.“とも書いてあり、どうやら私はモダンなOpenGL使いではなかったようで、古い習慣を改める時が来たようです(^^;

このような仕組みが出てきた経緯を同ブログから紐解いてみると、
OpenGL自身はOpenGLコンテキストを管理するすべを持っていません。X Windowを使うlinux環境下でのコンテキスト管理はGLXが担っていました。(GLXはOpenGLとX Windowの間を取り持つものです)
以前はlinux(というよりunix)でOpenGLを使う時はX Windowが必ず絡むことになり、OpenGLとGLXを分けて使うことは無かったはずです。そのためライブラリとしてlibGL.soがOpenGLもGLXも含んでおり、リンク時には-lGLだけを指定すれば良かったのです。しかし時は流れ、今回のEGLを使う場合のようにOpenGLのライブラリとGLX(OpenGLコンテキスト管理)を分離したいという需要が出てきました。そこでGLVND (OpenGL Vendor Neutral Dispatch)という仕組みが産み出されて、libGL.so改めlibOpenGL.soがコンテキスト管理部分を含まないライブラリとして用意されるようになった…というものです。
このGLVNDの仕組み自体はドライバのバージョンが361.28から提供されていたようですが、バージョンが進むにつれ、390という最近のバージョンでは古い方法がサポートされなくなったということが推測されます。

最後に

きっかけはブログを読んでくれた方からの質問でしたが、一通り調査を終えて古いバージョンのドライバを使い続けるという後ろ向きな方法から脱却できたのは良かった…というのが正直な気持ちです。
ちなみにこのブログは日本語ですが、質問してくれた方はstackoverflowにも今回の現象を投稿してくれていたので、そちらにもそれっぽく回答しておきました。これでもし英語圏の方が同じ現象にハマっても解決策にたどり着けるようになると良いかなと思います。

カブクではOpenGLやCUDAなど、GPUを駆使した実装が得意だという方をお待ちしております。

その他の記事

Other Articles

2019/05/20
[Web フロントエンド] 状態更新ロジックをフレームワークから独立させる

2019/04/16
C++のenable_shared_from_thisを使う

2019/04/12
OpenAPI 3 ファーストな Web アプリケーション開発(Python で API 編)

2019/04/08
WebGLでレイマーチングを使ったCSGを実現する

2019/04/02
『エンジニア採用最前線』に感化されて2週間でエンジニア主導の求人票更新フローを構築した話

2019/03/29
その1 Jetson TX2でk3s(枯山水)を動かしてみた

2019/03/27
任意のブラウザ上でJestで書いたテストを実行する

2019/02/08
TypeScript で “radian” と “degree” を間違えないようにする

2019/02/05
Python3でGoogle Cloud ML Engineをローカルで動作する方法

2019/01/18
SIGGRAPH Asia 2018 参加レポート

2019/01/08
お正月だョ!ECMAScript Proposal全員集合!!

2019/01/08
カブクエンジニア開発合宿に行ってきました 2018秋

2018/12/25
OpenAPI 3 ファーストな Web アプリケーション開発(環境編)

2018/12/23
いまMLKitカスタムモデル(TF Lite)は使えるのか

2018/12/21
[IoT] Docker on JetsonでMQTTを使ってCloud IoT Coreと通信する

2018/12/11
TypeScriptで実現する型安全な多言語対応(Angularを例に)

2018/12/05
GASでCompute Engineの時間に応じた自動停止/起動ツールを作成する 〜GASで簡単に好きなGoogle APIを叩く方法〜

2018/12/02
single quotes な Black を vendoring して packaging

2018/11/14
3次元データに2次元データの深層学習の技術(Inception V3, ResNet)を適用

2018/11/04
Node Knockout 2018 に参戦しました

2018/10/24
SIGGRAPH 2018参加レポート-後編(VR/AR)

2018/10/11
Angular 4アプリケーションをAngular 6に移行する

2018/10/05
SIGGRAPH 2018参加レポート-特別編(VR@50)

2018/10/03
Three.jsでVRしたい

2018/10/02
SIGGRAPH 2018参加レポート-前編

2018/09/27
ズーム可能なSVGを実装する方法の解説

2018/09/25
Kerasを用いた複数入力モデル精度向上のためのTips

2018/09/21
競技プログラミングの勉強会を開催している話

2018/09/19
Ladder Netwoksによる半教師あり学習

2018/08/10
「Maker Faire Tokyo 2018」に出展しました

2018/08/02
Kerasを用いた複数時系列データを1つの深層学習モデルで学習させる方法

2018/07/26
Apollo GraphQLでWebサービスを開発してわかったこと

2018/07/19
【深層学習】時系列データに対する1次元畳み込み層の出力を可視化

2018/07/11
きたない requirements.txt から Pipenv への移行

2018/06/26
CSS Houdiniを味見する

2018/06/25
不確実性を考慮した時系列データ予測

2018/06/20
Google Colaboratory を自分のマシンで走らせる

2018/06/18
Go言語でWebAssembly

2018/06/15
カブクエンジニア開発合宿に行ってきました 2018春

2018/06/08
2018 年の tree shaking

2018/06/07
隠れマルコフモデル 入門

2018/05/30
DASKによる探索的データ分析(EDA)

2018/05/10
TensorFlowをソースからビルドする方法とその効果

2018/04/23
技術書典4にサークル参加してきました

2018/04/13
Python で Cura をバッチ実行するためには

2018/04/04
ARCoreで3Dプリント風エフェクトを実現する〜呪文による積層造形映像制作の舞台裏〜

2018/04/02
深層学習を用いた時系列データにおける異常検知

2018/04/01
音声ユーザーインターフェースを用いた新方式積層造形装置の提案

2018/03/31
Container builderでコンテナイメージをBuildしてSlackで結果を受け取る開発スタイルが捗る

2018/03/23
ngUpgrade を使って AngularJS から Angular に移行

2018/03/14
Three.jsのパフォーマンスTips

2018/02/14
C++17の新機能を試す〜その1「3次元版hypot」

2018/01/17
時系列データにおける異常検知

2018/01/11
異常検知の基礎

2018/01/09
three.ar.jsを使ったスマホAR入門

2017/12/17
Python OpenAPIライブラリ bravado-core の発展的な使い方

2017/12/15
WebAssembly(wat)を手書きする

2017/12/14
AngularJS を Angular に移行: ng-annotate 相当の機能を TypeScrpt ファイルに適用

2017/12/08
Android Thingsで4足ロボットを作る ~ Android ThingsとPCA9685でサーボ制御)

2017/12/06
Raspberry PIとDialogflow & Google Cloud Platformを利用した、3Dプリンターボット(仮)の開発 (概要編)

2017/11/20
カブクエンジニア開発合宿に行ってきました 2017秋

2017/10/19
Android Thingsを使って3Dプリント戦車を作ろう ① ハードウェア準備編

2017/10/13
第2回 魁!! GPUクラスタ on GKE ~PodからGPUを使う編~

2017/10/05
第1回 魁!! GPUクラスタ on GKE ~GPUクラスタ構築編~

2017/09/13
「Maker Faire Tokyo 2017」に出展しました。

2017/09/11
PyConJP2017に参加しました

2017/09/08
bravado-coreによるOpenAPIを利用したPythonアプリケーション開発

2017/08/23
OpenAPIのご紹介

2017/08/18
EuroPython2017で2名登壇しました。

2017/07/26
3DプリンターでLチカ

2017/07/03
Three.js r86で何が変わったのか

2017/06/21
3次元データへの深層学習の適用

2017/06/01
カブクエンジニア開発合宿に行ってきました 2017春

2017/05/08
Three.js r85で何が変わったのか

2017/04/10
GCPのGPUインスタンスでレンダリングを高速化

2017/02/07
Three.js r84で何が変わったのか

2017/01/27
Google App EngineのFlexible EnvironmentにTmpfsを導入する

2016/12/21
Three.js r83で何が変わったのか

2016/12/02
Three.jsでのクリッピング平面の利用

2016/11/08
Three.js r82で何が変わったのか

2016/12/17
SIGGRAPH 2016 レポート

2016/11/02
カブクエンジニア開発合宿に行ってきました 2016秋

2016/10/28
PyConJP2016 行きました

2016/10/17
EuroPython2016で登壇しました

2016/10/13
Angular 2.0.0ファイナルへのアップグレード

2016/10/04
Three.js r81で何が変わったのか

2016/09/14
カブクのエンジニアインターンシッププログラムについての詩

2016/09/05
カブクのエンジニアインターンとして3ヶ月でやった事 〜高橋知成の場合〜

2016/08/30
Three.js r80で何が変わったのか

2016/07/15
Three.js r79で何が変わったのか

2016/06/02
Vulkanを試してみた

2016/05/20
MakerGoの作り方

2016/05/08
TensorFlow on DockerでGPUを使えるようにする方法

2016/04/27
Blenderの3DデータをMinecraftに送りこむ

2016/04/20
Tensorflowを使ったDeep LearningにおけるGPU性能調査

→
←

関連職種

Recruit

バックエンドエンジニア(Python・Go)

業務内容

当ポジションは弊社Webサービスのバックエンド機能設計及び実装を担当します。 サービス毎の開発チームで2週間スプリントのスクラム開発を実施しています。 週次で開発チームミーティングを実施し、実装設計の相談や工数見積もりを行います。 全ての開発コードはレビューと自動テストによって品質を保っています。 また、リファクタリングやフレームワークのバージョンアップも開発フローに組込み、技術的負債を放置しない開発を目指しています。

フロントエンドエンジニア(TypeScript)

業務内容

当ポジションは弊社Webサービスのフロントエンド機能設計及び実装を担当します。 サービス毎の開発チームで2週間スプリントのスクラム開発を実施しています。 週次で開発チームミーティングを実施し、実装設計の相談や工数見積もりを行います。 全ての開発コードはレビューと自動テストによって品質を保っています。 また、リファクタリングやフレームワークのバージョンアップも開発フローに組込み、技術的負債を放置しない開発を目指しています。

機械学習エンジニア

業務内容

センサーデータの分析モデルの調査・研究・開発。 Kabuku Connectの製造データ(3D、2D)から情報を抽出するモデルの構築。 データの前処理や学習、ハイパーパラメータチューニング、獲得モデルの評価、プロダクションのデータパイプラインとの連携をお願いします。

インターン(Webエンジニア)

業務内容

業務から独立した、調査・研究系のタスクをおまかせしています。コードレビュー、 社内での報告会、 ブログ記事執筆を通して着実にスキルアップしていただくことを目指しています。 (希望があれば、プロダクトの開発業務もおまかせします。)

→
←

お客様のご要望に「Kabuku」はお応えいたします。
ぜひお気軽にご相談ください。

お電話でも受け付けております
03-6380-2750
営業時間:09:30~18:00
※土日祝は除く