PlayStation 2のEmotion Engine、そしてPlayStation 3のCell Broadband Engine開発に携わったエンジニアらが、コンピューティングの世界に革新をもたらそうとしている。彼らが設立したスタートアップ「Lenzo」では、AIと暗号資産(クリプト)の時代を見据えた新アーキテクチャ「CGLA」の開発を進めているが、これが早速、暗号資産マイニングでNVIDIA製GPUを圧倒する電力効率を実証したのだ。これは果たして、30年間続いた半導体設計の停滞を打ち破る狼煙となるのだろうか。その技術の核心とビジョンを掘り下げる。
伝説のエンジニア、再び集結。Lenzoが描く「次世代コンピューティング」の野望
日本の半導体産業がかつての輝きを失って久しい。そんな中、奈良先端科学技術大学院大学(NAIST)発の認定スタートアップ、Lenzo株式会社が業界の常識を覆す可能性を秘めた技術を携え、名乗りを上げた。
CEOの藤原健真氏は、かつてソニー・コンピュータエンタテインメント(現ソニー・インタラクティブエンタテインメント)でPlayStation 2および3のCPU/GPU開発に従事した経歴を持つ人物だ。共同創業者でチーフアーキテクトの中島康彦教授は、富士通でスーパーコンピュータのプロセッサ開発に携わってきた、まさに計算機科学の権威である。
彼らが世に問うのは、「CGLA(Coarse-Grained Linear Array)」と名付けられた、全く新しい半導体アーキテクチャだ。
「CGLA」とは何か? 30年の停滞を打ち破る新発想
CGLAの革新性を理解するためには、まず現代のコンピュータが抱える根本的な課題に目を向ける必要がある。
なぜ今、新アーキテクチャが必要なのか?
私たちが日常的に使うPCやスマートフォンのプロセッサ(CPU/GPU)は、そのほとんどが「フォン・ノイマン型」と呼ばれる基本設計に基づいている。これは、計算を行う「演算ユニット」とデータを記憶する「メモリ」が分離されている構造だ。
この構造は汎用性が高い一方で、致命的な弱点を抱えている。それは、演算のたびに演算ユニットとメモリの間で膨大なデータ移動が発生し、その移動自体が電力の大部分を消費し、処理速度のボトルネックになるという問題だ。この基本設計はこの30年間、ほとんど変わっていないのが現状だ。プロセッサの性能向上は、主に半導体の微細化によって達成されてきたが、それも物理的な限界に近づきつつある。AIやブロックチェーンのように、扱うデータ量が爆発的に増大する現代において、この「フォン・ノイマン・ボトルネック」は、技術進化の大きな足枷となっているのだ。
CGRAとSystolic Arrayの限界を超えて
この壁を乗り越えるべく、これまでにも様々なアーキテクチャが提案されてきた。その代表格が「CGRA(Coarse-Grained Reconfigurable Array)」と「Systolic Array(シストリック・アレイ)」だ。
- CGRA: 回路構成を動的に書き換えられる柔軟性が特徴。しかし、その柔軟性が仇となり、回路の再構成(コンパイル)に数時間から数日を要するという致命的な欠点があった。
- Systolic Array: GoogleのTPUなどに採用され、AIの行列演算に特化することで高い性能を発揮する。しかし、特定の処理に特化しすぎているため柔軟性に欠け、ブロックチェーンのようなAI以外の計算には不向きだ。
Lenzoが開発したCGLAは、まさにこれらの課題を解決するために生まれた。彼らは、CGRAが持つ再構成の柔軟性、Systolic Arrayが持つ高速性、そしてメモリとのデータ移動を最小化する「ニア・メモリ・ コンピューティング」の思想を、一つのアーキテクチャに融合させることに成功したのである。
CGLAの心臓部:3つの革新的アイデア
CGLAの優位性は、NAISTの中島研究室が発表した学術論文「CGLA: Coarse-Grained Linear Array for Multi-Hash Acceleration in Blockchain Mining」で理論的に裏付けられている。その核心は、以下の3つの独創的なアイデアにある。
- 自己更新データ方式: ブロックチェーンのマイニングでは、「nonce(ノンス)」と呼ばれる値を総当たりで探し続ける。従来の方式では、計算ユニットが試行するたびにホストPCに次のnonce値を問い合わせる必要があり、これが通信のボトルネックとなっていた。CGLAでは、演算ユニット(PE: Processing Element)自身がnonce値を自動的に更新する機能を実装。これにより、ホストPCとの通信を劇的に削減し、計算に専念できる構造を実現した。
- 拡張可能な線形PEアレイ: 演算ユニットであるPEを、一次元の線形(リニア)に並べる極めてシンプルな構造を採用。これにより、設計が容易になるだけでなく、必要に応じてPEの数を増やすことで性能をスケールさせやすいという、高い拡張性を獲得した。
- 専用ALU設計: 各PEに内蔵される演算器(ALU)を、ハッシュ関数の計算に最適化。複数の演算を1クロックサイクルで実行できるよう工夫されており、極めて高い演算効率を誇る。
CGLAはデータをバケツリレーのように、演算器から演算器へと効率的に流し込む「データフロー指向」の設計により、無駄なメモリアクセスを徹底的に排除し、データが必要な場所へ、必要なタイミングで流れ着くようにパイプラインを構築する。これにより、フォン・ノイマン・ボトルネックを根本的に克服し、電力効率と性能を飛躍的に向上させることに成功したのだ。
圧倒的な性能の証明:データが語るCGLAの実力
CGLAは単なる理論上の存在ではない。LenzoはすでにFPGA(製造後に回路構成を書き換えられる半導体)ボード「TySOM-3A」上でプロトタイプを動作させ、その驚くべき実力をデータで証明している。
競合を置き去りにするハッシュレート
暗号資産マイニングの性能指標であるハッシュレートにおいて、CGLAは市場のトップランナーを圧倒する。
| 製品名 | プロセスノード | TH/s (テラハッシュ/秒) |
|---|---|---|
| Bitmain Antminer S21 Pro | 5nm | 234 |
| Lenzo Core | 16nm | 196.6 |
| Lenzo Core | 7nm | 619.29 |
| (出典: Lenzo社提供資料) |
注目すべきは、マイニングマシン最大手Bitmain社の最新鋭機「Antminer S21 Pro」が最先端の5nmプロセスで234 TH/sを達成しているのに対し、Lenzo Coreは一世代前の7nmプロセスでその約2.6倍となる619.29 TH/sという数値を叩き出している点だ。より古い16nmプロセスでさえ、5nmの最新機に迫る性能を見せている。これは、プロセス技術の優位性ではなく、アーキテクチャそのものの圧倒的な優位性を示しているに他ならない。
驚異的なエネルギー効率:GPUを最大8.7倍、従来CGRAを最大44.5倍凌駕
性能以上に衝撃的なのが、そのエネルギー効率だ。前述の研究論文によれば、45nmプロセスでシミュレーションしたASICにおいて、CGLAは既存技術を桁違いに上回る結果を示している。
- 対GPU比: NVIDIAのハイエンドGPUと比較して、エネルギー効率は2.8倍から8.7倍高い。
- 対従来CGRA比: 過去に研究されてきたCGRAアーキテクチャと比較すると、スループットで最大17.8倍、エネルギー効率に至っては最大44.5倍もの改善を達成している。
これは、計算にかかる電気代が収益性を直接左右するマイニング業界において、決定的な競争力となる。Lenzoのアーキテクチャは、より少ない電力で、より多くの計算をこなすことができるのだ。
「暗号資産は序章」NVIDIAとの長期戦に挑む巧みな戦略
これだけの性能を誇るCGLAだが、Lenzoが見据えるのは単なるマイニング市場の制覇ではない。彼らの最終目標は、NVIDIAが支配するAIコンピューティング市場に風穴を開けることにある。
なぜ「Crypto First」なのか?
新しい半導体アーキテクチャが市場に参入する上で最大の障壁となるのが、ソフトウェアエコシステムの欠如だ。特にAI分野では、NVIDIAが長年かけて築き上げてきた「CUDA」という開発環境がデファクトスタンダードとなっており、新規参入者はこの牙城を崩せずにきた。
そこでLenzoは、極めて巧みな二段階戦略を描いている。
- CUDA非依存の市場から参入: 暗号資産マイニングは、CUDAのような特定のソフトウェアフレームワークに依存せず、純粋なハードウェアの計算性能が収益に直結する。ここで圧倒的な性能と効率を誇るCGLAは、初期の市場を確立するのに最適なのだ。
- 需給の不均衡を突く: 暗号資産価格の上昇に伴い、マイニングマシンの需要は供給を常に上回っている。この市場のギャップは、Lenzoのような新規プレイヤーにとって大きなチャンスとなる。
- 自己資金の確保(セルフマイニング): 自社で開発した高性能マイニングマシンを使って自らマイニングを行う(セルフマイニング)ことで、製品販売に先んじて安定した収益源を確保。この潤沢な「軍資金」を、AIチップ開発と、最大の難関であるソフトウェアエコシステムの構築に再投資する。
いきなりNVIDIAとの正面衝突を避け、まず戦いやすい市場で足場と資金を固め、満を持して本丸であるAI市場に挑むという戦略なのだ。
AIサーバへの布石:すでにLLMは動いている
彼らのAIへの挑戦は、単なる構想ではない。すでにIntel製のサーバーとFPGAを組み合わせた環境で、64個のLenzoコアを搭載したAIサーバのプロトタイプを構築。この上で、Meta社の大規模言語モデル(LLM)である「Llama」を動作させることに成功している。
公開されたデモ映像では、Intel Xeonプロセッサ(3.1GHz)と比較し、Lenzo Coreを搭載したFPGA(140MHz)が、わずか22分の1のクロック周波数にもかかわらず、Xeonの約3分の1に迫る推論性能を達成している様子が示された。これは、CGLAアーキテクチャがいかに電力あたりの処理効率に優れているかを如実に物語っている。AIの推論処理においても、CGLAがゲームチェンジャーとなりうるポテンシャルを秘めていることの証だ。
Lenzoは日本の「日の丸半導体」の夢を再び見せるか
PlayStationやスーパーコンピュータといった、かつて日本の技術力が世界を席巻した分野のトップエンジニアたちが再結集し、現代のコンピューティングが抱える根本課題に、アーキテクチャレベルで挑む。Lenzoの物語は、単なる一企業の挑戦に留まらない、大きな意義を帯びているように筆者には感じられる。
CEOの藤原氏は、PlayStation 4以降、既存アーキテクチャの採用が主流となり、独自のチップアーキテクチャを追求する動きが業界から失われたことに、長年危機感を抱いていたという。
「この30年間、チップアーキテクチャに真のイノベーションはほとんどありませんでした。私たちは、AIと暗号資産の両方のワークロードを単一のアーキテクチャでサポートできる独自のCGLAによって、私たちにしか成し得ないイノベーションを実現しました」
彼の言葉には、失われた30年を取り戻し、再び世界を驚かせる技術を日本から発信したいという強い意志が滲む。
もちろん、その道のりは平坦ではない。最大の課題は、やはりCUDAに匹敵するソフトウェア開発環境を構築できるかという点に尽きるだろう。ハードウェアの性能がいかに優れていても、開発者がそれを使えなければ意味がない。マイニングで得た収益を、いかに効果的にソフトウェア開発に投下できるか。Lenzoの真価は、これから問われることになる。
しかし、その挑戦が持つ価値は計り知れない。著名なベンチャーキャピタルであるAndreessen Horowitz (a16z)が指摘するように、AIと暗号資産の融合は、次世代のコンピューティング需要を爆発させる巨大な潮流だ。Lenzoは、この二つの巨大な波が交わる一点を、誰よりも早く、そして深く見据えている。
果たして彼らは、NVIDIAという巨人に一矢報い、日本の半導体産業に再び光を灯す存在となりうるのか。その挑戦から、しばらく目が離せそうにない。
論文
- IEEE Xplore: CGLA: Coarse-Grained Linear Array for Multi-Hash Acceleration in Blockchain Mining
DOI: 10.1109/ISOCC62682.2024.10762376
参考文献
「元プレステ開発者の挑戦:新半導体「CGLA」がNVIDIAの牙城を崩すか」への2件のフィードバック