OTBから全国へ Deep Learning ソリューション




ディープラーニング(深層学習)は社会を変える人工知能の技術として今もっとも注目を集めている分野です。ディープラーニングはすでに医療の診断、車の自動運転、セキュリティ、翻訳、創薬、レコメンデーションシステムをはじめさまざまな分野で研究や実用化が進められています。今後ますますディープラーニングの応用分野は広がっていき、私たちの生活をより快適で便利なものに変えていくものと期待されています。

ディープラーニングではほとんどの場合計算を高速化するためにGPUが用いられています。大量の訓練データを使用して学習を行う際には単精度や半精度の浮動小数点を使った大量の演算を行う必要があり、こうした計算には広いメモリ大域幅と高い浮動小数点演算性能を持ったGPUがアクセラレータとして最適です。トレーニングには数日から数週間という長い時間がかかることがあり、GPUを使用することによってこのトレーニング時間を大幅に短縮することは必須といえます。

当社ではディープラーニング向けのシステムとして、GPUと各種ディープラーニングフレームワークのソフトウェアをインストールして構築したデスクトップマシンを販売しています。ディープラーニングのテスト的な導入に最適なコストパフォーマンスの良いエントリーモデルから、高スペックのモデルまでご希望の仕様に沿って柔軟に対応いたします。


ディープラーニングを利用にあたっては多くの場合ライブラリやフレームワークが用いられます。
こういったソフトウェアにはディープラーニングの計算に必要なライブラリや関数が揃っており、
そのほとんどがNVIDIA GPUによる計算をサポートしています。

また、他のフレームワーク、ソフトウェアをバックエンドとして動かすことでより簡単に使えるようにするソフトウェアとして、
Webブラウザからインタラクティブかつ直感的に操作可能でcaffeやTorchでの計算に対応したNVIDIA DIGITSや
TheanoとTensorFlowをバックエンドで利用できるニューラルネットワーク向けの高レベルAPIのKerasなどがあります。

当社のディープラーニングシステムでは下記のフレームワーク、ソフトウェアをプリインストールしています。
その他のソフトウェアのインストールについてはご相談ください。

Anaconda データサイエンスで使用されるモジュールを含んだPythonのオープンソースディストリビューションです。
CUDA, cuDNN NVIDIA社のGPGPUのためのツールキットおよびライブラリです(NVIDIA Driverを含む)。
Caffe ディープラーニングのためのC++/CUDAのフレームワークです。
Python, MATLABインターフェースにも対応します。
DIGITS Webブラウザからインタラクティブかつ直感的に操作可能で、計算経過や結果の可視化も可能なNVIDIA社のソフトウェアです。Caffe, Torchをバックエンドで使用します。
Chainer Pythonで利用できるニューラルネットワークのための国産フレームワークです。
TensorFlow Googleが開発しているデータフローグラフを使用した数値計算のためのソフトウェアライブラリです。データ可視化のツールなども含まれています。
Keras Pythonで利用できる高レベルなニューラルネットワーク向けのライブラリAPIです。
バックエンドとしてTensorFlowとTheanoに対応しており、よりシンプルな記述で
これらのソフトウェアを利用することが可能です。


標準エントリーモデルとして、単精度浮動小数点演算が高くローコストなコンシューマ向けのGPUを1枚搭載したGPU計算機です。
CPUはクロック数を重視したCore i7のCPUを1基、メモリは十分な64GBを搭載しています。
計算実行時にデータを読み込む際にHDDではI/O速度不足なのでSSDを搭載し、大容量データを長期的に保存するための
SATA HDDも1台搭載しています。また、ディープラーニングのためのフレームワークやソフトウェアもプリインストールして
サンプルでの動作確認を行います。

下記以外にも 「CPU、メモリの変更」「GPUモデルや搭載枚数の変更」 「さらにI/O速度が高速なNVMe SSDへの変更」 など
ご希望の仕様に合わせて柔軟に構成を変更いたしますのでご相談ください。

・標準エントリーモデル構成例

CPU Core i7-7820X 8コア/16スレッド 3.6GHz
メモリ DDR4 64GB nonECC unbuffer
GPU 1x NVIDIA TITAN V
(ディスプレイ出力と計算の兼用になります)
ストレージ SSD: 480GB SATA
HDD: 3TB SATA
ケース ATXタワーケース
光学ドライブ DVDスーパーマルチドライブ
電源 650W
OS Ubuntu 16.04 LTS
プリインストール
ソフトウェア
・Anaconda
・CUDA、cuDNNライブラリ(NVIDIA Driver含む)
・DIGITS + Docker
・Caffe, Torch (NVIDIA DIGITSに付随するバージョンになります)
・Chainer
・Keras
・TensorFlow
(*1) ソフトウェアの利用にはユーザ様でライセンス登録が必要なものが含まれます
(*2) Caffe, TorchはDIGITSインストール時に付随するものになります
オプション SSDを出荷時の状態に復旧するリカバリ用のUSBメモリ

最新GPUカード

GPUカード NVIDIA TITAN V (Volta) NVIDIA Quadro GV100 (Volta)
CUDA Core CUDAコア(単精度): 5120
Tensorコア : 640

CUDAコア(単精度): 5120
Tensorコア : 640

浮動小数点演算性能 FP32: 約14.8 TFLOPS (Boost Clock時)
FP64: 約7.4 TFLOPS (Boost Clock時)
FP32: 約14.8 TFLOPS (Boost Clock時)
FP64: 約7.4 TFLOPS (Boost Clock時)
メモリ 12GB HBM2 32GB HBM2 (ECC機能サポート)
メモリバンド幅 最大652 GB/s 最大870 GB/s 
備考 Voltaアーキテクチャのコンシューマ向けGPUです。
前世代のNVIDIA TITAN X等とは異なり、倍精度浮動小数点演算でも高い性能を発揮します。また、新しいVolta GPUアーキテクチャのTensorコアを活用することによってDeep Learningのトレーニング・推論で高い性能を発揮し、実行時間を大幅に短縮します。

VoltaアーキテクチャのQuadro GPUです。TITAN Vと同様の高い演算性能に加え、帯域幅が広く大容量な32GB HBM2メモリを搭載しておりECC機能もサポートしています。GPU上のメモリの大容量化によってホストとのデータ転送の時間を削減、レンダリング・VR・CAE・Deep Learningなどさまざまなアプリケーションで処理時間を短縮します。

* 本システムはディープラーニングの導入テストなどの用途を想定したエントリーモデルになります。
長時間GPUに負荷をかけた状態での安定した動作や性能を求めるような運用を行う際には、
より信頼性の高いTeslaシリーズの導入をお勧めいたします。




プリインストールのソフトウェアについてはMNISTなどを使用した簡単なサンプルで動作確認を行っておりますが、
Caffe, Chainer, TensorFlowはオープンソースのconvnet-benchmark(https://github.com/soumith/convnet-benchmarks) を
使った動作確認も行います。

ここではGPUにNVIDIA TITAN Xを使用した場合のconvnet-benchmarksのAlexNetの実行結果を記載します。
AlexNetは画像の物体認識において有名なCNN(畳み込みニューラルネットワーク)のモデルで、
8層の隠れ層と5層の畳み込み層(+プーリング層)と3層の全結合層から構成されています。

convnet-benchmarkのAlexNetのモデルに関する実行時はデフォルトの設定通り
バッチサイズ128、入力チャンネル数3、入力画像224x224としており、
1バッチあたりのforwardパスとbackwordパスの時間を計測することができます。

Caffe, Chainer, TensorFlowの実行結果は下のグラフのようになります。
CaffeとChainerはほぼ同じ実行時間となっており、TensorFlowはそれに比べ3割程度高速なことがわかります。
同様にconvnet-benchmarksのGoogleNetについても測定しましたが、 その場合はTensorFlowが
244msecともっとも高速で、次にCaffeが254msec、Chainerは308msecという結果でした。
AlexNetの結果と比較するとGoogleNetの方はCaffeの実行時間はTensorFlowにかなり近づいており、
ChainerとTensorFlowとの差もAlexNetの場合に比べると小さくなっています。

Deep LearningのソフトウェアやCUDA、cuDNNといったGPUのライブラリなどによって性能は大きく変わることがあり、
同じモデルに対するソフトウェアを変えた場合の速度の違いを比較することは難しいですが、
ハードウェアを変えた場合などに何種類かのネットワークで実行速度を比べることは重要なため
当社では動作確認としてこのようなベンチマークソフトを一つの例として使用しています。

実行環境

ホストPC 1x Xeon E5-2643v4, 128GBメモリ, NVIDIA TITAN X
OS: Ubuntu 16.04 LTS
ソフトウェア CUDA: CUDA 8.0, cuDNN 5.1, NVIDIA Driver 367.48
Caffe (BVLC): 1.0.0-rc4
Chainer: 1.21.0
TensorFlow-gpu: 1.0.0


  お見積はOTB社のWEBページからご希望PCモデルをご選択し"Deep Learning"と付記しご送信下さい.



   (C)Copyright OTB Transnational Inc. 2017 All rights reserved.