後藤弘茂のWeekly海外ニュース
NVIDIAが次世代GPU「Pascal」のHBM2アーキテクチャを公開
(2016/4/13 06:00)
TSMCのCoWoS技術を使ってHBM2をパッケージに統合
NVIDIAは先週、米サンノゼで主催した「GTC(GPU Technology Conference)」で次世代GPU「Pascal(パスカル)」のHBM(High Bandwidth Memory)2について概要を明らかにした。メモリ帯域は720GB/secで、ECC(Error Correcting Code)もサポートされる。
HBMは高性能グラフィックスではGDDR5の後継となるメモリ技術だ。極めて幅の広いメモリインターフェイスを使って、超広帯域メモリを実現する。HBM系メモリは、Through Silicon Via(TSV)技術とマイクロバンプ技術を使ってDRAMダイを積層する。DRAMダイの最下層にはベースダイが配置され、ベースダイと各DRAMダイとDRAMダイ同士はTSVとマイクロバンプで垂直接続される。
PDF版はこちら
Pascal GP100では、GPUダイとベースダイは、TSMCの「CoWoS(Chip-On-Wafer-On-Substrate)」技術によって接続される。CoWoSはTSVシリコンインタポーザを使って複数のダイを1パッケージに統合する技術だ。GPUとHBMモジュールの間のデータバスは1,024-bit幅。128-bit幅のチャネルを8チャネル束ねたインターフェイスとなっている。GP100は、合計4モジュールを接続するため、データバスは合計で4,096-bitとなる。メモリチャネルは合計で32チャネル(スードメモリチャネルでは64)となる。
AMDのHBM1に続いてNVIDIAは2世代目のHBM2を採用
HBMはAMDのRadeon R9 Fury(Fiji)が、昨年(2015年)夏に最初に採用した。Fijiが採用したのは第1世代のHBM1。それに対して、NVIDIAがGP100で使うのは第2世代のHBM2だ。どちらもHBMを4モジュール使い、インターフェイスは4,096-bit幅。しかし、FijiのHBM1は転送レートが1Gbpsで、512GB/secのメモリ帯域であるのに対して、GP100のHBM2は1.44Gbpsで、720GB/secのメモリ帯域を実現している。
PDF版はこちら
MaxwellベースのTesla M40(GM200)、KeplerのTesla K40(GK110)とも、GDDR5でメモリ帯域は288GB/sec。GP100のメモリ帯域は2.5倍となる。同じGM200でも、グラフィックス向け製品の「GeForce GTX Titan X」は336GB/secの帯域なので、Tesla P100は約2.14倍となる。
ただし、HBMには、帯域だけでなく、帯域あたりのエネルギーが小さいという利点もある。GDDR5はビットあたりのエネルギーが18〜22pj(ピコジュール、pj/bit)であるのに対して、HBMは6〜7pj/bit。そのため、帯域を広げても電力は抑えられる。言い換えれば、HBMでないとこれだけの広帯域を一定の電力で得ることができない。
さらに広メモリ帯域版のGP100の登場の可能性も
HBM2は、スペックでは2Gbpsの転送レートまで可能だ。選別すれば2Gbps以上でも動作可能だという。そのため、今後のGP100系製品では、メモリ帯域はさらに広がると見られる。これまでの例では、Tesla系はメモリの安定動作を重視するため、GeForce系よりもメモリの転送レートが低めに設定されている。GP100のグラフィックス向けGeForce版では、同じGP100でも、メモリ転送レートが高めになる可能性がある。
HBMは、ベースダイとその上に積層されたDRAMダイで構成されるモジュールとして提供される。DRAMダイのスタックは2-hi(2ダイ)、4-hi(4ダイ)、8-hi(8ダイ)の3種類のバリエーションで提供される。HBM2では、1ダイあたり2チャネルまたは4チャネル。そのため、2チャネルでも4チャネルでも同じピーク帯域が得られる。8ダイのスタックの場合は2ランクの構成となる。
HBM1は、SK hynixだけが製造し、ダイあたりのDRAMの容量は2G-bitだった。そのため、4個のダイをスタックした4-Hiスタックを4モジュール使うFijiのメモリ容量は4GBだった。それに対して、HBM2では、チップ当たりのDRAMの規格容量が8G-bitとなる。Tesla P100は、4個のDRAMダイの4-Hiスタックを使っている。メモリ容量は、4-Hiスタックを4モジュールで16GB。今後登場するだろう、8ダイの8-Hiスタックバージョンの場合に32GBとなる。グラフィックスでは、これだけの容量はオーバーキルだが、HBM2自体は2ダイでも同等のメモリ帯域を保つことができる。8GBの低コスト構成も可能だ。
PDF版はこちら
シリコンインタポーザを使う新しいパッケージング技術
HBM2とGPUは下の図のように、インタポーザの上に乗っている。図でシリコンキャリアと示されているのがそれだ。シリコンキャリアはTSV技術を使っており、ダイはウエハシンニング(wafer thinning)プロセスで薄化されている。シリコンキャリアの上面はマイクロバンプでGPUとHBMに、下面はC4バンプでサブストレートと接続する。
上の断面写真の左がHBM2スタックだ。最下層の横に長いダイがベースロジックダイだ。その上に3層になっているのがHBM2のDRAMダイ。4層めのDRAMダイは上のスペーサとくっついているため区別できない。スペーサによって、HBMの積層ダイ数が何枚であっても同じ720um厚に揃えられる。
製造がスタートしたばかりのHBM2がGP100の出荷量を決める
今回発表されたTesla P100(GP100)は、SamsungのHBM2を使っている。Samsungは、今年(2016年)前半からHBM2の量産をスタートさせている。しかし、新DRAMの量産は、通常は限定された量でスタートし、ラーニングカーブが上がるにつれてボリュームを増やして行く。今回は、加えてTSVスタッキングであるため、「known good stacked die(KGSD)」の製造プロセスを確立して行く必要もある。あるJEDEC関係者は、HBM2がハイボリュームで入手できるようになるのは2017年に入ってから、と以前語っていた。Samsungが前倒しで量産を進めているが、当初は、HBM2の出荷量はある程度限定されると予想される。
GP100を製造するTSMCの16nm FinFETプロセス自体は、既に量産開始からある程度の時間が経っており、製造リスクが小さい。それに対して、HBM2はぎりぎりのタイミングでの採用となっている。そのためか、GTCのキーノートスピーチでの、NVIDIAのJen-Hsun Huang(ジェンセン・フアン)氏(Co-founder, President and CEO)の説明も次のようだった。
「(Tesla P100の)製造は今行なっている。“すぐに”出荷するだろう。最初はクラウド向けに提供し、次に来年の第1四半期までにはOEMから出荷される」。
Tesla P100は、今年(2016年)いっぱいは限定された顧客向けとなる。おそらく、Tesla P100の足を引っ張る材料は、このHBM2の量産だ。HBM2は2ランクで8-Hiスタックも可能だが、32GBメモリ容量版のGP100ボードの提供は、来年(2017年)になるだろう。
合計で32メモリチャネルを制御する8個のメモリコントローラ
HBM規格では、各スタック毎に1,024-bitのインターフェイスで、128-bitのチャネルを8チャネル含む。HBM2では、128-bitのチャネルをさらに分割して、2つのスードチャネル(pseudo channels)として使うことができる。GP100は、4個のHBM2スタックを使う。そのため、メモリチャネルは32チャネル、64スードチャネルとなる。
それに対して、GP100のメモリコントローラは合計で8コントローラ。各コントローラが、4チャネルまたは8スードチャネルのチャネルを制御することになる。言い換えれば、2つのメモリコントローラで1個のHBM2スタックを制御している。この構成で、HBM2の多メモリチャネルを効率的にコントロールできるかどうかは、実際のチップが出るまでは、まだ分からない。
ECCフリーを実現する1Gbitsのエクストラビットを搭載
Tesla P100はECC(Error Correcting Code)フリーを謳っている。オンチップメモリのECCはもちろん、外部メモリのECCも、性能や容量のペナルティなしに実現できるという意味だ。実は、これもHBM2の機能によって実現されている。
GDDR5では、ECCにはコストが必要だった。GDDR5では、ECCサポートのためにメモリ容量の一部をECC bitsに割かなければならなかった。NVIDIAによると、GK110 Kepler GPUで12GB GDDR5メモリの場合、6.25%にあたる750MBをECCに割いていた。GDDR5では、ECCのためのエクストラダイは搭載しないためだ。また、ECC bitsアクセスのためにメモリ帯域も多少食われることになる。
ところが、HBM2はオプションでECCをサポートする。HBM2のDRAMダイは、SamsungとSK hynixともに規格容量が8Gbitsだ。しかし、どちらもECCサポートのために、追加の1Gbits分のメモリを搭載している。そのため、ECCを有効にしても、8Gbitから容量が削られない。従来のDRAMのように、ECC bits分のダイを増やすことはHBMアーキテクチャでは難しく、また、GDDR5のように容量を削ることも避けたかったためと見られる。
また、HBM2ではECC bitsアクセスによってメモリ帯域も削られることがない。JEDEC規格では、HBM2では、各チャネルのデータバスは128-bit幅だが、ECCを有効にする場合は各チャネルに16-bitのECCのチェックビットアクセスバスが有効になる。メインのデータバスは使われないため、データ帯域は維持される。
JEDECのHBM規格は、もともとAMDとSK hynixが中心となって策定した。しかし、HBM2からはNVIDIAとIntelが策定に積極的に加わり、両社が望む機能を盛り込んだ。ECC機能もNVIDIAが強く望んだ機能だったという。HBM1を見送ったNVIDIAは、HBM2から採用した。しかし、HBM2とPascalのタイミングは、実際には少しずれている。しばらくは、NVIDIAはHBM2の供給に苦しむことになりそうだ。
2016年4月13日
- 連載後藤弘茂のWeekly海外ニュースNVIDIAが次世代GPU「Pascal」のHBM2アーキテクチャを公開[2016/04/13]
- 連載大河原克行の「パソコン業界、東奔西走」VAIO Zの生産を、安曇野の「VAIOの里」で見る[2016/04/13]
- 連載Windows 10ユーザーズ・ワークベンチ盛りだくさんの新機能追加をチェック[2016/04/13]
- iPhoneでWi-Fiアクセスポイントに接続する方法 ほか[2016/04/13]
- パワーポイントに挿入するグラフの作り方[2016/04/13]
2016年4月12日
- 連載福田昭のセミコン業界最前線10nm世代の半導体技術が6月のVLSIシンポジウムで姿を現わす[2016/04/12]
- 連載PC使いこなし塾埋もれたメールを瞬時に探せるGmail検索テクニック[2016/04/12]
- .biz東芝、Cherry Trail搭載の法人向け10.1型WUXGAタブレット[2016/04/12]
- PFU、iOSやAndroidでも利用できるHHKB Professional 2のBluetooth版[2016/04/12]
- Plextor、Marvell製コントローラ採用のSSD「M6S Plus」[2016/04/12]
- .bizデル、Broadwell-EPを搭載したプロ向けワークステーション[2016/04/12]
- SteelSeries、赤軸スイッチ採用のゲーミングメカニカルキーボード[2016/04/12]
- NTTと理科大、100京分の1秒単位での半導体内電子運動の観測に初成功[2016/04/12]
- 2016年Q1のPC出荷台数は前年同期比11.5%減[2016/04/12]
- やじうまPC Watch世界で一番安全にIntel CPUを殻割りできるツール、爆誕[2016/04/12]
- 連載実録! 編集飯ほうれん草パスタ、カリーライス、海鮮汁そばセット、メロンパン[2016/04/12]
- ダイジェスト・ニュース[2016/04/12]
- アップデート情報[2016/04/12]
- iPhoneで入力したアルファベットが勝手に修正される現象を防ぐ方法 ほか[2016/04/12]
- Excelグラフの作り方、種類、編集方法の解説まとめ[2016/04/12]
- Windows 10パソコンにデジカメを接続したときの動作を設定する方法[2016/04/12]
- 説得力のあるプレゼン資料をパワーポイントで作るためのポイント[2016/04/12]
2016年4月11日
- 連載笠原一輝のユビキタス情報局市場の需要に合わせて脱皮し続けるNVIDIA[2016/04/11]
- まずはUWP、話はそれからだ[2016/04/11]
- Microsoft、Edgeブラウザで広告Flashコンテンツの実行をブロックへ[2016/04/11]
- 連載山口真弘の電子辞書最前線スマートフォンやタブレットとの連携機能を搭載した電子辞書、カシオ「XD-Y6500」[2016/04/11]
- BungBungame、8コア+Super AMOLED搭載のタブレット「KALOS2」[2016/04/11]
- LG、19,980円からのAMD FreeSync対応液晶[2016/04/11]
- マウス、ストレージ2台積みもできる13.3型フルHDノート[2016/04/11]
- 公式情報なし? スリム型のG-TuneゲーミングPCがAmazonで販売中[2016/04/11]
- .bizユニットコム、Intel B150採用のデスクトップPC[2016/04/11]
- 本日みつけたお買い得品AOSのPC引越しソフトが半額以下に[2016/04/11]
- Thermaltake、256色LEDファンを搭載した簡易水冷CPUクーラー[2016/04/11]
- 3年伸びた国内タブレット所有率が頭打ちに[2016/04/11]
- 東急ハンズ池袋店でCompute Stickを使った体験イベントが開催中[2016/04/11]
- 連載実録! 編集飯五目釜飯、肉団子麺+中華丼、カルボナーラ、カツカレー[2016/04/11]
- PC Watch週間アクセスランキング[2016/04/11]
- ダイジェスト・ニュース[2016/04/11]
- アップデート情報[2016/04/11]