週刊 エレクトロニクスニュース 10/11/2021

NeuroBladeがコンピュート・イン・メモリ・チップの発売に向けて資金調達
コンピュート・イン・メモリのスタートアップであるNeuroBladeは、同社のコンピュート・メモリ・チップ「XRAM」をベースにしたデータ分析アクセラレータの販売に向けて、8,300万ドルの資金を調達した。今回のシリーズB資金調達により、2018年の設立以来、NeuroBladeの資金調達総額は1億1,000万ドルに達した。
イスラエルを拠点とするこのスタートアップは、データ処理機能をインメモリーに統合することで、データ移動の大きなボトルネックを解消するデータアナリティクスアーキテクチャを開発している。これまではチップを実現するアーキテクチャの開発に注力してきましたが、システムレベルのアプライアンスと称して、「Xiphos」と名付けられたデータ分析ツールも提供する予定である。
Xiphosは、ストレージ、メモリー、中央処理の間でデータが常に入れ替わることによって生じる遅延の問題を解決するアプローチであり、データの移動は、アプリケーションのパフォーマンス低下やレスポンスタイムの低下の主な原因となる。現在のアーキテクチャでは、将来のデータ分析の要件に対応するための拡張性がないため、ニューロブレードは、データの移動を減らしながらデータ分析のパフォーマンスを向上させる計算アーキテクチャを設計した。 Xiphosは、XRAM計算メモリチップをベースにしたアプライアンスで、データ分析を加速し、従来のI/Oボトルネックを解消するとともに、システムの帯域幅制限を克服することを目的としている。
NeuroBladeは、インメモリ処理をいち早く製品化したと主張している。共同設立者であるCEOのElad Sity氏によると、最大の障害は、ソフトウェアの不足だったいう。
NeuroBladeは、さまざまなメモリアーキテクチャを検討し、最終的には演算コアをDRAMに統合した。「ツールチェーンや検証ソフトウェアはもちろんのこと、DRAMチップ全体を一から作り直した。ツールがなかったため、すべてを一から作らなければならなかった。我々は2018年にXRAM技術の構築を開始し、2020年に最初のチップを取り戻した」とSity氏は語る。
特許取得済みのXRAM技術は、DRAMと組み込み処理ロジックを組み合わせたもので、メモリバンクの近くに処理素子を集積することで、高帯域での超並列実行を実現している。その結果、データ量の多いワークロードを、データの移動量を大幅に減らして高性能に処理することができ、データの比較・操作、集約、フィルタリング、ルックアップなどの処理を高速化することが可能となる。
コンピューター・アーキテクチャーとともに、「我々はデータ分析アクセラレーターを構築し、データの処理と分析を既存のシステムよりも100倍以上高速化した」とSity氏は主張する。
NeuroBladeは、巨大なデータセンター運営者が直面するデータ分析の課題に対応するアプライアンスであるとアピールしている。ハイパースケーラーに話を聞いたところ、彼らは皆、データ分析がハードウェアに求める重要な要素だと言っていた。そのため、ニューロブレードは、チップではなくサーバーをOEMに提供することに重点を置いている。「パートナーシップが鍵となるが、当社はIntelやSAPなどの企業と緊密に連携している。当社の投資家のほとんどが戦略的パートナーでもある」と述べている。

SamsungがCXLポートフォリオにソフトウェアを追加
Samsungは、最初に発表したCXL(Compute Express Link)に続き、CXLプロトコルの普及とエコシステムの拡大を目的としたソフトウェアツールを発表した。
Samsung Electronicsのデータセンター・プラットフォーム・グループのバイスプレジデント兼ヘッドであるCheolmin Park氏は、CXLの普及を促進するためには、ソフトウェアとオープンスタンダードが重要であると考えている。そのために、ヘテロジニアスなメモリシステム用のScalable Memory Development Kit(SMDK)をリリースした。
このオープンソースソフトウェアは、簡単に統合できるように設計されており、ソフトウェア定義のメモリ管理を提供する。またこのアプローチは、顧客やパートナーとのコラボレーションやCXL技術のデモンストレーションを促進し、CXLエコシステムの拡大を加速する。
今回のキットは、Samsungが今年初めに発表した、AIやハイパフォーマンス・コンピューティングなどのアプリケーションに向けたダブルデータレート5 DRAMベースのメモリ・エキスパンダーに続くもので、これらのデータ集約型アプリケーションには、メモリ容量と帯域幅を大幅に拡張できるサーバーが必要である。
Cheolmin氏は、実績のあるメモリーエクスパンダーがあったからこそ、アプリケーションへの移行が進み、SMDKが誕生したと述べている。この組み合わせは、既存のソフトウェアツールやスタックと統合できるように設計されている。
Samsungは、CXL 2.0 DRAMメモリ・エキスパンダーが顧客にサンプルとして提供されるにつれ、ソフトウェア・ツールがメモリと統合されてより利用しやすくなることで、容量と帯域幅が50%も増加すると予測している。従来のDRAMやCXLメモリなどのハードウェアを、ソフトウェアスタックの特定の位置に組み合わせることで、単一の仮想メモリが可能になる。
その他のSMDKの要素としては、互換性のあるAPIや最適化されたASPのサポートに加え、帯域幅の割り当てとともに異なるソフトウェアの要求や優先順位をサポートするインテリジェントな階層化エンジンがある。
この開発キットは、メモリ階層において、DDR DIMMの下、SSDの上に追加の層を作ることができる。メモリエクスパンダの適用により、CPUあたりの帯域幅と容量が増加する。また、SMDKのワークフローは、様々なメモリのユースケースをサポートし、互換性のあるAPIは、ソフトウェアを変更することなくメモリの拡張をサポートする。一方、最適化されたAPIは、ソフトウェアアプリケーションの変更をサポートする。
Samsungは、SMDKをスケーラブルなメモリ環境に拡張し、メモリディスアグリゲーションアーキテクチャやCXLのオーケストレーションに使用される完全なソフトウェアパッケージの開発を可能にしたいと述べている。AI、機械学習、5Gエッジクラウドサービスは、メモリ開発キットの恩恵を受ける可能性がある。「CXL技術の採用を加速させることになるだろう」とParkは付け加えている。

地球外生命体の探索に量子コンピューティングを活用
量子ソフトウェアベンダーのZapata Computingは、ハル大学の研究者と協力して、地球外生命体の探索に量子コンピューティングを応用する。
この協力により、Zapataの量子ワークフロープラットフォームであるOrquestraを使用した研究が、地球外の生命体の兆候を検出するアプリケーションの改良につながる。共同研究者は、8週間後に研究の分析結果を発表するとしている。Zapataと英国の大学との間では、さらなる量子天体物理学の共同研究も計画されている。ボストンを拠点とするZapataのプラットフォームは、大企業で見られる従来型のワークフローと量子的なワークフローの両方に対応している。
この共同研究の目的は、生命の生成に有益な分子や微量元素の存在を検出することであり、ハル大学の分子物理学および宇宙化学の上級講師であるDavid Benoit氏は、インタビューで 「これはおそらく長期的なプロジェクトで、多くの可能性のある分子のデータを得ることができるだろう。 量子コンピューターは、宇宙物理学の研究で必要とされる複雑な物理計算を行うための貴重なツールであることがわかってきた」とし、「MITの研究者たちは、酸素や窒素など、生命に関連する可能性のある分子のリストを考案した。しかし、単純な分子であっても複雑な相互作用があり、非常に正確な計算が必要である。そしてもちろん、宇宙物理学で問題となるのは、そのほとんどが直接分析できないということで、入ってきた光やスペクトルのサインを分析しなければならない。実際にスペクトルサインがわかって初めて、分子を認識して見つけることができるのである」と述べている。
MITのリストには、太陽系外惑星の大気中に生命の痕跡を示す14,000以上の分子が含まれている。近傍の星から放射される赤外線によって刺激される分子の回転や振動の物理学は、しばしば定義されていない。ハル大学のE.A.ミルン天体物理学センターでは、量子コンピューティングを活用した新しい分子回転・振動の計算モデルを用いて、検出可能な生物シグネチャーのデータベースを作成することを目指している。太陽系外惑星の探査:イタリアの宇宙物理学者、Margherita Hack氏は、「エピクロス、プルタルク、ルクレティウス・カロの時代から、人類は他の生命体の存在を問題にしてきた。今日、私たちは少なくとも、太陽系外惑星が存在すると言うことができる。太陽系外惑星の存在は、他の形態の生命体が存在するための必要条件であり、十分ではないにしても、必要な条件なのである」と述べている。
現在、1,000個以上の太陽系外惑星が確認されており、居住可能な惑星や生命の痕跡を求めて探索が続けられている。生命が誕生するために必要な化学成分に注目している。
その中でも、恒星ではなく惑星に存在する化学物質のスペクトルサインは、他の惑星とは異なる特徴を持っている。太陽系外惑星や恒星に近い惑星の場合、スペクトル信号と偏光信号を組み合わせることで、その物理的特性を知ることができるというメリットがある。「ある範囲の分子を識別するためには、その分子に含まれるさまざまな原子がどのように相互作用するかを、かなり高い精度で記述する必要がある。これは、バネとその調和的進化がバネ定数に依存するようなもので、推定が悪いと間違ったダイナミクスになってしまう。― 量子コンピューティングでは、従来とは異なるアプローチをとることで、古典的なコンピュータでは計算が困難な結果を得ることができる。例えば、水素は解析しやすいが、電子の数が増えてくると、一般的なコンピュータでは妥協しなければならない。つまり、量子コンピューターを使えば、正確なハミルトニアンをシミュレートし、量子コンピューターの力を使って欲しい量を計算できるので、おそらく正確な仕事ができるようになるでしょう」とBenoit氏は語る。私たちが知っているような生命の発展には、表面に液体の水が必要だが、太陽系外の惑星、特に居住可能な地球サイズの惑星の表面に液体の水を見つけることは非常に困難である。また、大気中には、恒星の光を受けて蒸発する水蒸気と、それに付随する分子が存在していなければならない。これらの加熱された化学物質は、惑星の居住性を判断するために不可欠であり、太陽系外惑星でこれらの化学物質を検出する新しい方法を開発することは、地球外生命体を発見するための第一歩である。

Intelが第2世代のニューロモルフィック・チップを発表
Intelは、第2世代のニューロモルフィック(神経形態学的)コンピューティング・チップ「Loihi 2」を発表した。Loihi 2は、最先端のニューロモルフィック・ニューラル・ネットワークの研究用に設計されており、さまざまな改良が加えられている。例えば、ニューロン用の新しい命令セットによりプログラム性が向上し、スパイクに1と0以外の整数値を持たせることができるようになったほか、大規模なシステムのために3次元メッシュ状のチップに拡張できるようになった。
また、ニューロインスピレーション・アプリケーションを開発するためのオープンソース・ソフトウェア・フレームワーク「Lava」を発表した。Intleは、ニューロモーフィックの研究者にLavaの開発に参加してもらいたいと考えており、このフレームワークが稼働すれば、研究チームがお互いの研究成果を構築することができる。
Loihiは、脳にインスパイアされたスパイキング・ニューラル・ネットワーク(SNN)用に設計されたニューロモーフィック・ハードウェアのあるべき姿を、Intelが表現したものである。SNNは、入力されたスパイクのタイミングが情報を暗号化するイベントベースのコンピューティングに使用され、一般的には、早く到着したスパイクの方が、遅く到着したスパイクよりも計算効果が高くなる。

ニューロモーフィック・ハードウェアと一般的なCPUとの大きな違いは、メモリを細かく分散させていることで、Loihiのメモリは個々のコアに組み込まれており、また、Loihiのスパイクはタイミングに依存しているため、アーキテクチャは非同期的である。
Intelのニューロモーフィック・コンピューティング・ラボのディレクターであるMike Davies氏は、「ニューロモーフィック・コンピューティングでは、これらの動的な要素の相互作用によって計算が行われる。この場合、ニューロンは、受け取った入力にオンラインで適応するという動的な特性を持っており、プログラマーは、チップが答えに到達するまでの正確なステップの軌跡を知らないかもしれない」とし、「チップは状態を自己組織化する動的なプロセスを経て、ある新しい状態に落ち着く。我々が平衡状態と呼ぶその最終的な固定点が、解決したい問題の答えをコード化している。つまり、他のアーキテクチャでのコンピューティングの考え方とは根本的に異なるのである」と述べている。
第一世代のLoihiチップは、これまでに、ロボットアームの適応制御など、さまざまな研究用途で実証されている。適応制御とは、システムの変化に合わせて動作を変化させ、アームの摩擦や摩耗を減らすことである。Loihiは、制御アルゴリズムを適応させて、エラーや予測できない動作を補正することができ、ロボットが望ましい精度で動作することができる。また、Loihiは、異なる匂いを認識するシステムにも使用されており、このシナリオでは、ディープラーニングを用いた同等のシステムよりもはるかに効率的に新しい匂いを学習して検出することができる。ドイツ鉄道のプロジェクトでも、列車のスケジューリングにLoihiが使われ、線路の閉鎖や列車の停車などの変化に、システムが素早く反応した。

The Network Switch:超大規模データセンターの縁の下の力持ち
低消費電力というと、スマートフォンやスマートウォッチ、ノートパソコンなどのバッテリー駆動の機器を思い浮かべるが、それ以外にも、低消費電力が私達の日常生活に大きな影響を与えるアプリケーションがいくつかある。例えば、ハイパースケールデータセンターでは、ネットワークスイッチで管理されている、ハイパフォーマンスコンピューティングと呼ばれるすべての配管や通信インフラがその一例である。
在宅ワークによるオンライン活動の爆発的な成長に伴い、多くの産業分野でインターネットの利用や電子商取引が大幅に増加している。私達は自宅で仕事をしたり、学んだり、遊んだりと、Eコマースやオンライン・デリバリー、遠隔医療、バーチャル・フィットネス、その他多くのバーチャルな体験をしている。そして、そのすべてがクラウドに移行してきている。2010年代初頭には、調査対象となった大企業の40%近くが、2年以内にITのキャパシティを超えることが予想されると回答していた。それから約10年が経ち、規模や業種を問わず、ほぼすべての企業が業務の拡張と合理化のためにテクノロジーに大きく依存している。企業の成功には、これまで以上に大量のデータへのアクセスが欠かせない。これらのデータを迅速に処理する能力を高めるためには、次世代技術の導入を加速させながら大規模なデータセンターを構築しているクラウドプロバイダーから、より多くのコンピューティングとストレージの容量を確保する必要がある。ハイパースケールテクノロジー:ハイパースケールのデータセンターといえば、まず思い浮かぶのは、信頼のおけるサーバーCPUである。予測可能なx86のスケーリングにより、パフォーマンスと電力の節約が可能になる。また、処理能力がFPGAやGPU、そして最近ではインターネット大手が自社で設計したカスタムシステムオンチップ(SoC)に移行しているのを目の当たりにしてきた。プロセッサは、その後の技術開発のたびに、ムーアの法則と呼ばれる予測可能な方法で改良されてきた。ハイパースケールのデータセンターでは、有線・無線の接続性、ネットワーク、ストレージも重要な要素であり、これらもまた、最新のイーサネットやネットワーク規格、最新のメモリ、高速接続、ストレージ技術によって、自然に改善されていく。
クラウド化の流れは、サーバーのCPU、人工知能、高度なメモリー、マルチチップパッケージが中心となっている。よくあることだが、性能の限界は、CPUの性能でもなければ、採用されている高度なメモリー技術の種類でもない。むしろ、ネットワークと接続性がボトルネックになっている。ラック内のサーバー間、ラック間、ビル間、キャンパス間、そして最終的にはインターネットへのデータの移動速度も重要な要素である。この重要なインフラを支える縁の下の力持ちが、ネットワークスイッチである。2015年には3.2Tb、2019年には12.8Tb、2020年には25.6Tbと、5年間という短いスパンで、ネットワークスイッチのホスト速度は2年ごとに倍増している。
特に、高速SerDesの開発が進み、シングルレーンの112Gロングリーチ機能が実現していることから、51.2Tbの導入もそう遠くはないだろう。これは、モジュールの帯域幅が、2015年の100Gから2019年には200/400Gになることを意味している。今後2~3年で、400Gから800Gへの高速化が実現されようとしてる。これは、2019年に始まった28Gボーから56Gボーへと移行する光学部品の改善と相まっており、これらの変化はすべて、非Return-to-Zero符号化から、はるかに効率的な高変調PAM4(パルス振幅変調、4レベル)符号化への移行と一致している。
市販されているものを調べてみると、12.8TbのSoCの大半は16nmプロセスノードで製造されている。25.6Tbについては、2019年後半からSoCが7nmに移行し、2020年に量産に入る。第1世代の25.6Tb SoCは、当時の最高技術である50GのSerDesを使用していた。最近の発表では、ついに100GのSerDesチップが登場し、50Gから100GのSerDesへの移行と、7nmから5nmへのプロセス技術の移行が期待されている。

フレキシブルPCMでスイッチングバリアの壁を克服
超格子材料とフレキシブルな基板を組み合わせることで、相変化メモリ(PCM)の主要な欠点の1つを解決できるかもしれない。
PCMは、フレキシブル電子機器のデータストレージとして有望視されているが、スイッチング電流と電力が大きいことが、PCMの商業化・大量生産の障害となっている。しかし、スタンフォード大学の研究者たちは、別々の分野で研究を行ってきたが、フレキシブル超格子PCMにおいて、1平方センチメートルあたり約0.1メガアンペアという低いスイッチング電流密度を実証することができた。これは、フレキシブル基板やシリコン基板上の従来のPCMに比べて、1~2桁低い値である。
スタンフォード大学の研究者たちは、超低熱伝導性の基板上に形成したポーラス型デバイス内の超格子材料に熱を閉じ込めることで、この特性を実現したと発表した。このPCMデバイスは、低抵抗で多段階の機能を備えており、インメモリ・コンピューティングやデータストレージ、フレキシブルなIoT(Internet of Things)電子機器などへの応用が期待される。また、今回の研究では、柔軟性がなくても、市販の硬質シリコン基板上の従来型PCMに関する熱工学的な知見も得られた。
電気工学の教授であるEric Pop氏は、博士課程の学生であるAsir Khan氏と、ポスドクのAlwin Daus氏とともに、EE Timesへのブリーフィングで、超格子材料での熱の閉じ込め、気孔型デバイスでの電流の閉じ込め、熱絶縁性の高いフレキシブル基板での電流の閉じ込めにより、スイッチング電流密度の低減が可能になることを説明した。
Khan氏は基本的にPCMの超格子を使ってスイッチングを実証することができ、ポスドクのDaus氏はフレキシブル・エレクトロニクスの専門知識を持ち込むことができた。グループは、超格子PCMとフレキシブル・エレクトロニクスを組み合わせて、フレキシブル基板上でメモリーを動作させることができるかどうかを検討した。 「予想以上にうまくいった。― 通常、フレキシブル基板上に電子機器を作る場合、リソグラフィーが粗いために製造プロセスが悪くなり、悪い結果になる傾向がある」とPop氏は述べた。超格子を用いた成膜の試みは15年前から行われているが、条件が難しいという。Daus氏によると、これまでにも他のグループによって成膜が行われたことはあったが、温度条件が厳しいため、結果を再現するのは難しいと述べている。
Khan氏は、これまでの超格子の研究とは異なるアプローチで、熱をよりよく閉じ込める構造を作ることに注力したことが、今回の成功につながったと述べている。さらに興味深いのは、PCM技術をフレキシブル基板上に配置した場合、シリコン基板上に配置した場合よりも優れた性能を発揮したことだ。フレキシブルな基板自体が、より低い電力で相変化を起こすための熱的な絶縁体となっているのだとPop氏は語る。
曲げられるメモリーがフレキシブルな電子機器に使われる可能性は注目に値するが、エネルギー効率もそれと同じくらい、いやそれ以上に重要である。従来の相変化メモリに比べて100倍のエネルギー効率を実現したとし、Khan氏は、「これは2つの観点から見ても嬉しいブレイクスルーである。 フレキシブルエレクトロニクスはエネルギー効率を重視するが、保持力、安定性、低消費電力を備えたPCMはおろか、柔軟性も備えたメモリーを内蔵することはほとんど行われていない。今回のブレークスルーは、フレキシブルでない電子機器にも同じように適用できる」と述べている。
フレキシブル電子機器は、紙やプラスチック、金属箔などを基板とし、有機物や金属酸化物、アモルファスシリコンなどの薄膜半導体材料を組み合わせて使用するものである。結晶シリコンと比較して、薄い、変形しやすい、製造コストが低いなどの利点がある。実際の製品としては、市場に出回り始めたスマートフォンの折り畳み式スクリーンが真っ先に思い浮かびそうだが、フレキシブルメモリーに加えて、フレキシブルプロセッサーも実現可能かもしれない。

競合するNeuromorphicシステムの公平な競争環境の構築
前回の記事では、「似たもの同士を比較する」ことがなぜ難しいのか、という問題を取り上げた。実際には、研究者は自分の技術に合ったベンチマーク指標を選び、その結果を唯一のメリットとして扱う傾向がある。代替手段がない以上、そのやり方を批判するのは難しい。
しかし、技術開発に直接関わっていない評価者を参加させるという選択肢もある。これはここ数年のトレンドであり、今年も少なくとも3つの論文が発表されている。
これらの論文は、ベンチマーキングを正しく行うことがいかに難しいかを示している。オークリッジ国立研究所が発表した論文では、ニューロモーフィックシミュレーターが実行できるはずのさまざまな機械学習タスクを選択し、性能を測定した。そして、そのタスクがどれだけの電力を消費するか、パフォーマンスを測定した。
さまざまなタスクを実行することで、システムの全体像を把握することができます。テストされたのは、NEST、Brian、Nengo、BindsNETで、これらはすべて、さまざまな種類のネットワークの設計とシミュレーションに使用される。これらのシステムは、PC上で動作するものと、GPUを含むさまざまな方法で高速化されたものがある。なお、いずれのボードもニューロモーフィック・ハードウェアを使用していなかったが、使用可能なボードもあった。
現実的な理由から、実行時間は15分に制限された。共著者のCatherine Schuman氏によると、このハードウェアの選択は、高度な機器を持たない人でも研究に参加できるようにしたいという研究者たちの願いを反映したものだそうだ。ニューロモーフィックシミュレーターを従来のハードウェアで最適化することは、少々矛盾していると思われるかもしれないが、この目標は妥当なものである。また、数ヶ月ではなく数週間で研究を完了させることも、当然の判断だと思う。しかし、結果的には、5分の2のマシンしかタスクの一部を完了できず、データに大きなギャップが生じてしまった。
また、ドイツのカールスルーエにあるFZI Research Center for Information Technologyが行ったロボットの経路計画に関する実験では、別の問題に直面した。代表的なニューロモルフィック技術としてマンチェスター大学のSpiNNakerシステムが選ばれ、機械学習を加速するために設計されたNvidiaのJetsonボードを使用したシステムと比較された。
SpiNNakerはもともと、実際のニューロモルフィックハードウェアというよりも、シミュレータとして設計されたものであり(SpiNNaker 2とは対照的)、電力効率の面では劣っていた。他の低消費電力のニューロモルフィックチップ(IntelのLoihiなど)はテストされなかった。
SpiNNakerは、FZIが参加しているHuman Brain Projectの一環であるため、研究者が利用可能なものを使用したのは当然のことである。確かに、それぞれの目的に合った比較結果だったのかもしれない。しかし、この結果が本当に有用なベンチマークとなるかどうかは定かではない。
ドレスデン大学のプロジェクトでは、NengoとSpiNNakerの開発者と共同で、SpiNNaker 2とLoihiをキーワード検索と適応制御のタスクで比較するという、あまり野心的でない目標を掲げた。
たった2つのシステムを比較しただけなので、このベンチマーク研究の重要性は低いと思われるかもしれないが、研究者が公平で有用な比較を行うには、この方法しかなかったのかもしれない。そのアプローチもまた、難しさを示している。

Qualcomm がMLPerf推論のタイトルでNvidiaに挑む
MLPerfのAI推論ベンチマークの最新ラウンドのスコアが出た。MLPerfの学習と推論の結果は、当初からNvidiaが優位に立っていたが、今回のラウンドでは、データセンター/エッジサーバーの推論に関して、QualcommがNvidiaの背後に迫っているようだ。
Qualcommは、Cloud AI100アクセラレータを16倍搭載したシステムのMLPerf推論スコアを提出し、クローズド部門のデータセンター推論のResNet-50とSSD-Largeベンチマークを獲得した。しかし、この部門でNvidiaの最大のA100システムは、8倍のA100を搭載しており、8x A100システムは、ResNet-50とSSD-Largeにおいて、Qualcommの8x Cloud AI100システムのスコアを上回った。
注目すべきは、いくつかの電力効率指標において、QualcommのCloud AI100は、NvidiaのA100をベースにしたいくつかのシステムを上回っていると解釈できることである。QualcommのCloud AI100のTDPは約75Wで、競合他社のGPUが通常必要とする数百Wよりもはるかに低くなっている。性能面ではNvidiaのA100を下回っているが、消費電力で割るとQualcomm製がリードしているケースがある。
Nvidiaは、A10、A30、A100、AGX XavierおよびXavier NXアクセラレーションシステムの多くの反復に加えて、ArmベースのサーバーCPU(この場合はAmpere Altra CPU)を使用したシステムのスコアと、同じアクセラレーターセットアップでAMD Epyc x86サーバーCPUを使用したシステムのスコアも提出した。これにより、ArmベースのCPUとx86相当のCPUを直接比較することが初めて可能になり、その結果、2つのシステムの性能はほぼ同等となった。Nvidiaは、この結果はArm CPUがデータセンターに対応していることを証明しているだけでなく、Nvidia自身のソフトウェアがデータセンターに対応していることも証明していると述べている。
パフォーマンススコア:データセンターの推論結果に対するNvidiaの見解(クローズド部門)は、グラフにまとめられている。これらの数値は、アクセラレータチップごとに正規化され、さらにA30の性能に正規化されている。各ワークロードの最も背の高い2本の棒は、同じNvidiaアクセラレータを搭載したArmベースのサーバーとx86ベースのサーバーの比較を示している。性能はほぼ同じだが、ほとんどすべてのケースでx86システムの方がわずかに優れていた。
ArmベースのCPUは、データセンターの電力効率を高めるソリューションとして注目されている。しかし、Nvidiaは今回、Armベースのシステムの電力測定スコアを提出しなかった。同様のx86ベースのシステムと同じかわずかに劣るベンチマークスコアを出すことが、データセンター事業者を説得するのに十分かどうかは、まだわからない。
Nvidiaのグラフでは、ResNet-50ベンチマークに限り、QualcommのCloud AI100が、TDP約165Wの同社のメインストリーム推論アクセラレータGPUであるNvidia A30を上回っている。
Qualcommは、クローズドデータセンター部門のResNet-50ベンチマークで、16台のCloud AI100を搭載したシステムのサーバーモード(レイテンシー目標あり)で約31万回/秒、オフラインモード(レイテンシー目標なし)で約34万2千回/秒のスコアを獲得し、総合的に勝利した。グラフでは、Nvidiaがアクセラレータごとに正規化しているため、そのようには見えないが、Qualcommの製品管理担当シニアディレクターであるJohn Kehrli氏は、アクセラレータごとに正規化することだけがスコアを比較する方法ではないと指摘している。

欧州ICの取り組みが技術者の主権を脅かす
中国、米国、欧州と、技術主権をめぐる動きが加速しているが、その中でも特に注目されているのが半導体である。北京がチップの革新に数十億ドルを投じ、米国の議員たちがチップの戦略的価値について合意に達する中、欧州連合(EU)も技術の独立性を高めることを目的とした法案を提出し、争いに参加している。欧州チップス法」と名付けられたこの宣言は、欧州委員会のUrsula von der Leyen委員長が9月15日に行った一般教書演説の中で宣言したものである。「我々は、アジアで製造された最先端のチップに依存している。これは単に我々の競争力の問題ではなく、技術的な主権の問題でもある」とUrsula von der Leyen氏は述べている。資金規模や生産スケジュールなどの詳細は明らかにされていない。同氏は、米国の取り組みと同様に、欧州のチップイニシアチブも「生産を含むチップエコシステム」の構築を目指していると強調した。どちらも、サプライチェーンの混乱やアジアの生産者への依存度の高さに対応するものである。一方、中国は、先進的なロジックデバイスを欧米のベンダーに依存することなく、台湾海峡を挟んだ巨大なチップ製造企業を抑制したいと考えている。
欧州チップス法は、7月に発表された「半導体に関する欧州連合」と呼ばれる別のICイニシアチブに基づいている。これらの動きは、来るべき「デジタルの10年」に向けて、EUのリーダーたちがアジアのチップメーカーへの依存度を減らす努力をしていることを示している。
チップ産業のグローバルな性質を考えると、欧米の同盟国と台湾積体電路製造有限公司のような重要なサプライヤーが、戦略的なチップ技術の発展のために独自の道を歩むことができるかどうかは不明である。そのため、TSMCは中国の圧力に対するヘッジとして、生産の一部を米国に移すことを計画している。
欧州委員会のThierry Breton内部市場担当委員は、ブログの中で、ベルギーのImec、フランスのLETI/CEA、ドイツのFraunhofer Societyを引き合いに出し、この地域の研究開発能力を強調している。国際的な協力の必要性を認めた上でBreton氏は「このアイデアは、ここヨーロッパですべてを自力で生産することではない。しかし、欧州チップス法によって、我々の技術主権は手の届くところにある」と述べている。
設計ツール、ウェハー、製造装置の四半期ごとの受注が過去最高となっているチップ業界団体は、欧州の半導体イニシアチブを称賛した。業界団体SEMIの社長兼CEOであるAjit Manocha氏は、「このような取り組みを透明性を持って実施することで、業界関係者は世界の半導体産業の回復力を効率的に強化し、より強固なサプライチェーンを構築する機会を得ることができる」とし、「現在のチップ不足は、半導体製造装置や材料のバックログやリードタイムを悪化させている。インセンティブは、新規および既存の半導体製造装置・材料設備への投資にも適用されるべきである」と述べている。
そのために、欧州では、2ナノメートルノード以降のチップを大量に生産できる “メガファブ “の開発にも取り組んでおり、また、電気自動車の普及に伴い、エネルギー効率の高いICの開発も重要な課題となっている。