ヤフーが、ディープラーニングを活用したデータ解析の高度化やサービスのパーソナライズ精度向上のために極秘で開発を進めていたスーパーコンピュータ「kukai」。
従来の225倍の処理性能とともに世界を驚かせたのは、国際ランキングで、初登場いきなり世界2位の評価を獲得したその省エネ性能でした。
「kukai」はなぜ、なんのために、開発されたのでしょうか。データ&サイエンスソリューション統括本部の角田直行テクニカルディレクターに聞きました。
弘法大師のようなスーパーコンピューターを作ろう
「それなら、うちでスパコンを作ればいいじゃないか。名前は“kukai”にしよう!」
2015年末、これからのデータ分析に不可欠な、ディープラーニングに特化したコンピュータシステムのあり方を報告していた角田直行にそう言い放ったのは、社長の宮坂学でした。
「これまでのヤフーには、Hadoopなどの分散処理環境はあったものの、ディープラーニングそのものに適したインフラはありませんでした。
私たちは、圧倒的な処理パワーが必要なディープラーニングの特性に適したコンピュータ・インフラ環境を調査するなかで、たんに既存のサーバーを数多く並べるだけではなく、これからはスパコンが必要ではないかとおぼろげには感じていたし、そうした調査結果を経営層にもレポートしていたんです。
しかし、自前で作っちゃおうという社長の発言にはびっくりしました。しかも、名前まで最初から決めているんですからね」と、角田は言います。
▲データ&サイエンスソリューション統括本部 テクニカルディレクター 角田直行
「kukai」とは「空海」のこと。言うまでもなく、日本史上屈指の大宗教家。人民救済のため諸国を巡歴し、数多の活躍伝説が各地に残っています。
「これからの日本をまるごとアップデートする」というヤフーのビジョン達成のために使われるスパコンの名前としては、これ以上にふさわしいものはなかったのかもしれません。
「最初は数年がかりの中長期的なプロジェクトとして考えていましたが、AIやディープラーニングの技術競争が激化。のんびりしていたら乗り遅れると、スピード重視に方針を転換しました。2016年夏には必要とされるスパコンのスペックを決定、翌2017年3月末までには完成というスケジュールになりました」
既存のスパコンを借りたりするのならわかります。コンピュータ・ベンダーやサイエンス系の専門研究所が新たに作るのもあり得ることです。
しかし、インターネット・サービス企業とはいうものの、これまでスパコンなど開発したことのないヤフーにとっては、前代未聞のチャレンジ。しかも1年足らずで完成を目指すというのです。
果たしてそんなことが可能なのでしょうか──。
演算処理能力に加え、省エネ性も世界トップレベルへ
角田らがスパコン「kukai」の頭脳部にあたるチップとして注目したのは、米国の半導体メーカーNVIDIAが開発するGPU(グラフィックス・プロセッシング・ユニット)でした。
以前はコンピュータグラフィックス処理に使われるものでしたが、2007年にNVIDIAはGPUアクセラレータを活用した製品を発表。CPUとGPUの連動で高度な科学計算処理を行う、GPUコンピューティングの時代をリードしています。最近では、ディープラーニングにもGPUが利用され、NVIDIA自身、AIコンピューティングカンパニーとして名声が高まっています。
CPU処理の場合、通常は数個、数十個単位のコアで処理しますが、GPUには並列作業を効率よく処理する小さな何千ものコアが搭載されているのが特徴です。
「最近のAI技術の動向を調査していると、ディープラーニングを高速に処理するオープンソースのフレームワークはほとんどが、NVIDIA製のライブラリを使って作られています。ディープラーニング技術者も、当然のようにNVIDIAのGPUを使うという流れができています」
その意味でGPUの選択は一つのトレンドでもあったのです。
ただ、ディープラーニングの処理には、他の高速計算以上に膨大な電力消費が求められます。とりわけ国内のデータセンターにスパコンを置こうとした場合、電力コストは決して無視できません。日本の産業用電気料金は、欧米アジアの主要国のなかでイタリアに次いで2番目に高いとも言われているからです。
「私たちはスパコンをこれからの日々の業務に使用するわけですから、たんに演算処理能力が高いだけではなく、消費電力あたりの処理性能、つまり省エネ性も高いスパコンの開発が必須だったのです」
もう一つ、省エネ性能にもかかわることですが、冷却という課題もありました。高速の演算処理を行うと、コンピュータチップは高い熱を持つようになります。
熱暴走を抑える冷却技術は、スパコンに限らずあらゆるコンピュータの課題です。通常はファンを使った空調で冷却を行いますが、角田らが注目したのは、ハードウエアをまるごと液体につけて冷却効果を高める「液浸」という方法でした。
「液浸といっても、今回使ったのは、絶縁性のあるフッ素系不活性の液体です。こうした液浸冷却技術ではExaScaler(エクサスケーラー)社というHPC(ハイパフォーマンス・コンピューティング)ベンチャーの技術が優れていることを私たちは知っていました。そこで、kukaiの開発では同社とその販売代理店HPCシステムズの協力を得ることになりました」
▲ スパコン「kukai」の液浸技術
ExaScaler社は社員わずか9名ながら、高エネルギー加速器研究機構や東大理学部情報科学科と共同研究契約を結ぶ企業。後述しますが、スーパーコンピュータの1W当たりの演算性能を競う省エネランキング「Green500」においては、同社が理化学研究所と共同開発した超小型スパコンが、2016年6月に世界1、2位を独占しました。
「素人」のチャレンジが報われるとき
「kukai」は2017年3月、Yahoo! JAPANグループが保有する東日本最大のクラウド拠点「白河データセンター」(福島県)で稼働を開始しました。
▲ 白河データセンターで稼働する 「kukai」
NVIDIAの最新GPU「Tesla P100」を160基搭載、ExaScaler社の液浸冷却技術と高密度実装技術を採用し、冷却効率を高めています。もちろん単なるハードウエア構築だけでスパコンは効率よく動きません。ソフトウエアのチューニングが必須です。ただ、チューニングも人手でやるのは限界があります。
そこで、角田らは機械学習の専門家である東大大学院・佐藤一誠講師の協力を仰ぎました。機械学習を活用したHPCチューニングは、ヤフーはもちろん業界内でも珍しい事例です。結果的に、想定を大幅に上回る省エネ性能を示す数値(Flops/W)が得られました。
演算能力と同時に省エネ性能も「kukai」プロジェクトの重要な目的でした。それを実証すべく、角田らは、世界で最もエネルギー消費効率のよいスパコンを定期的にランク付けし評価するプロジェクト「Green500」へエントリーすることにしました。
ベンチマークソフトによるデータを、ランキングを統括するTOP500団体事務局に送って、評価してもらうのです。
「『Green500』にランキングされるためには、前提として、スパコンの絶対性能を評価する『TOP500』にランキングされる必要があるんです。今回のエントリーでは、TOP500で465位という成績。そもそも処理性能でTOP500にランクインできるかが微妙な記録だったので、発表当日まで心配でなりませんでした」
「kukai」のエントリーデータは、14.04 GFLOPS/W(1ワット当たりで処理できる1秒間の演算回数)、処理性能として460.7 TFLOPS(1秒間の演算回数)を記録していました。前回の「Green500」では、世界1位の省エネスパコンが9.5GFLOPS/Wを記録していたため、今回は10GFLOPS/Wを超えることが目標とされていました。
2017年6月19日、ISCのフランクフルト大会。Green500の発表セッションの会場には角田の姿がありました。
「ベンチマークで14 GFLOPS/Wをだしていましたから、その点では10位以内には入る自信はありました。とはいえGreen500では、近年、激しく順位が入れ替わるため、決して安心できる数字ではありませんでした」
ところがこの日の発表は、角田の不安を吹き飛ばし、期待を大きく上回るものでした。なんと「kukai」は、1位とはわずかな差で世界2位を獲得。つまり現時点では世界で2番目に消費効率の良いスパコンというお墨付きを得たのです。
「そもそも必要なGPUの調達に時間がかかったこと、ベンチマークテストの途中で予期せぬハードウエア・エラーが生じて、何度もGPUを交換しなければならなかったこと、それらもあってチューニングに時間が割けなかったことなど、これまでの苦労が報われた瞬間でした。
ちょうど翌日には、東京でヤフーミーティング(全社社員大会)が開かれるというタイミング。直属の上司である佐々木潔(CDO/ チーフデータオフィサー )に結果をメールで伝えると、ヤフーミーティングの最大のサプライズとして、それを社員全員に伝えてくれることになりました」
実はそれまで、ヤフーが自前でスパコンを開発していることは役員と角田らごく少数のメンバーだけの「極秘事項」だったのです。「えっ、うちがスパコンを?しかも省エネ性能がいきなり世界2位なんて!」という驚きと共に、全社社員大会の会場は歓喜の渦に包まれました。
ちなみに、高性能スパコンの開発の実力では世界トップクラスの日本ですが、近年は省エネ性能でも高い評価を得ています。
今回のランキングでは、東京工業大学の「TSUBAME3.0」が1位に輝き、3位に産業技術総合研究所(産総研)、4位に理化学研究所(理研)が入るなど、上位10位までに日本の六つのシステムがランクインしています。
しかし、角田自らが言うように、ヤフーは他の大学・研究機関と違って、スパコン製作についてはただ一人の専門家もいない「素人」企業です。その企業が初めてのスパコンで省エネの“銀メダル”を受賞したことには、日本のメディアが一斉に驚いたのです。
スパコンの力で人工知能を全開させる
世界的にも評価される高性能・省エネスパコンを、わずか1年足らずで作り上げたヤフーのチーム。ただ、スペックだけで満足しているわけにはいきません。これからの本格的な運用でいかに効果を出せるかが重要になります。
ヤフーのディープラーニング技術はすでに自社開発の音声認識エンジン「YJVOICE」へサービスとして実装されています。また、Yahoo!ニュースなどコンテンツ配信において、パーソナライズの精度向上のためにもその解析結果が活用されています。
「kukai」の導入はこれらの精度をさらに高めることになるでしょう。さらに今後、eコマース、検索、メディア、決済、広告などさまざまなサービスに活用されることで、サービスの総合的な質を高めることが期待されています。
「ヤフーの強みは日々膨大なデータを収集できていることですが、これを迅速に解析してサービス向上に反映するためには、これまで以上にデータ解析基盤の高度化が求められます。今回のスパコンは、こうしたデータ解析のためのインフラをヤフーが自前で開発できることを証明しました。
素人集団が少しはプロフェッショナルな領域に近づけたんじゃないかと思います。今後もこのインフラは拡充を続けます。そのためにも、スパコンを含むインフラ開発にかかわるエンジニアがますます必要になります」
と、角田はエンジニアへの熱い期待を語っています。
インターネット社会の将来を見すえ、スパコンの力で人工知能を全開させる。これまでは国家的なプロジェクトにでも関わるしかなかったようなチャレンジですが、いまは一企業にいてもそれが可能になりました。その場を真っ先に提供するのがヤフーなのです。