Nvidiaの最新チップGH200になぜCPUとGPUを集積するのか
NvidiaがComputex Taipeiで�收�AI向けの最新チップGH200(図1)を発表し、それを「Grace Hopper」と�@��韻拭�GraceはCPU�霾��HopperはGPU�霾�鮖悗靴討い襦�造呂修�iにAMDもMI300Xという�收�AI向けのGPUチップを発表しているが、ここでもCPUとGPUを組み合わせて使う。なぜか。

図1 NvidiaのCPUとGPUを集積したGH200 出�Z:Nvidia
Grace Hopperだけではなく、AMDのMI300シリーズで最初にCES 2023で発表したMI300AもCPU+GPUのAIチップであった。AMDは�收�AI向けのAIチップ構成をこの頃からしっかりと考えていた�Iがある。5月23日には電�効率の良いスパコンTop500に載っている�岼�10社の内7社がAMDのEPYC CPUとInstinct MI250 AIアクセラレータを使っていると発表した。AMDがスーパーコンピュータやこれからのHPC(High Performance Computing)、AIスーパンコンピュータなどにCPU+GPUのセットを使っていく構えを見せている。
8月にAMDが Instinct MI300Xを発表したときはGPUを�jきくしたAIアクセラレータのチップだったが、6月13日には��4世代のEPYCというCPUを発表しており、AIシステムにはCPU+GPUのセットが�擇④討�襪判劼戮討い襦�泙�MI300は、チップレットを���してパッケージングした最初のGPU����であり、AMDは先端パッケージ�\術を推し進めていく。
GH200は、図2に�されるように、左�笋�CPUと���笋�GPUをうまく使い分けることによって、効率よく演�Qできるようにしている。
図2 GH200の内�陬屮蹈奪�沺―儘Z:Nvidia Grace Hopper Superchip Architectureホワイトペーパー
�屬凌泙任蓮�CPUのメモリとしてLPDDR5Xを、GPUにはHBM3Eを使う。CPUとGPUを900GB/sという�高�]のNVLinkでつなぎ、外�陲�GPUともNVLinkで接�し拡張性を確保する。
NvidiaはCPUとして独�O仕様のGraceを使う効果を、x86 CPUとの比較で説��靴討い襦�CPUメモリのバンド幅は、x86�Uの150GB/sに�瓦靴�3倍以�屬�500GB/sとなり、CPUとGPU間のやり�Dり�のデータ幅はx86�Uの128GB/sに�瓦靴�NVLink-C2Cを使い900GB/s、と独�O仕様のCPUでバンド幅を広げることができた。さらに他のGH200とも接�してシステムを拡張する場合もNVLinkを使って接�する。
さらにメモリをCPUとGPUで共�~できるように工夫している。そのために�駘�瓮皀蠅膨樟椶弔覆阿里任呂覆�▲瓮皀蠅諒儡好董璽屮襪鮑遒蝓△海海魏陲靴撞⑱韻気擦�駘�瓮皀蝓�HBMやLPDDR5x)ページに飛ぶようにした。CPUとGPUは完�に同じメモリセルにアクセスできる。
AIの演�Q処理にGPUだけではなくCPUも�W�するには�lがある。この場合CPUは�U御だけではなく演�Q機�Δ硼Lかせないため、最�j128ビットまで拡張できるハイエンドのArm CPUコアであるArm Neoverse V2 CPUコアを72個使っている。
�k般には、GPUには�j量の積和演�Q�_とメモリが集積されており、演�Qだけに専念するGPUで行�`演�Qを行うことが�Hい。��に積和演�Q�_を�j量に集積しているGPUは、密な行�`演�Qには適している。
しかし、�の演�Qではレイテンシに時間がかかりすぎGPUは適さない。ニューラルネットワークでは、�_みやデータ×0=0の��Qが実に�Hい。これをGPUで行�`��Qすることは�T果がゼロという無�Gを��Qすることになる。無�Gな��Qをしなくて済むように�の行�`演�QではCPUで�官�垢襦�海譴�藥�屬里���收�AIの学�{には、無�Gなく処理時間を�]くするために、CPUとGPUをセットで使うことが�Lかせなくなるだろう。
参考�@料
1. "NVIDIA Grace CPU Superchip Whitepaper", Nvidia Whitepaper