≈ディ〖プラ〖ニング池漿にはウェ〖ハ憚滔の叼絡(luò)なチップが澀妥∽
かつて、ウェ〖ハスケ〖ルLSI∈WSI∷と鈣ばれる叼絡(luò)なチップがあった。AI箕洛に掐り、ディ〖プラ〖ニングの池漿脫に1名2000帛トランジスタを礁姥した叼絡(luò)なシリコンチップが判眷した∈徊雇獲瘟1∷。勢(shì)スタ〖トアップCerebras家が活侯したこのチップはWSE∈Wafer Scale Engine∷と疚する21.5cm逞の燙姥のシリコンを300mmウェ〖ハで侯瀾した。

哭1 Cerebras家が倡券したウェ〖ハスケ〖ルの叼絡(luò)なシリコンチップ 寶布のチップはこれまでのNvidiaのGPU 叫諾¨Cerebras家ホ〖ムペ〖ジから
このウェ〖ハ憚滔のチップの燙姥は46,225mm2と叼絡(luò)で、これまで呵絡(luò)のGPU∈グラフィックスプロセッサ∷が211帛トランジスタを礁姥した815mm2のチップ燙姥だから、なんとその56.7擒も絡(luò)きい。300mmウェ〖ハから1綏しか艱れないウェ〖ハスケ〖ルのAIチップだ。
Cerebras家は、AIチップにとって海がム〖アの恕摟笆懼にAI遍換の見(jiàn)妥が3.5ヵ奉ごとに2擒に光まる、という糠恕摟の箕洛を忿えたと斧ている。この叼絡(luò)なAIチップは、TSMCの16nmプロセスで侯られており、それでもレチクルサイズを雇胃して鏈攣で辦つの遍換達(dá)を侯ったのではなく、遍換ブロックを12∵7改♂84改蛇き低めている。辦つのブロックの面にAIコアを腆4762改礁姥したようで、AIコア眶を40它改礁姥したと山附している。
AI、潑にディ〖プラ〖ニングでなぜ、これほど驢くの遍換コアが澀妥なのか。ニュ〖ロン1改のモデル∈パ〖セプトロンモデル∷は、驢掐蝸1叫蝸の遍換達(dá)∈ステップ簇眶∷であり、掐蝸には眶澆改のデ〖タと、それぞれに腳みを齒け、遍換達(dá)で遍換する。哭2はアナログ攙烯で山附したが、デジタル攙烯でも山附できる。つまり、ΣAi∵BiというMAC∈姥下遍換∷である。デ〖タをAiとすると、腳みはBiで山附され、それらを齒け換した馮蔡を遍換達(dá)に掐蝸する。叫蝸は1か0である。この遍換達(dá)が事誤にずらりと事んでいるのがニュ〖ラルネットワ〖クだ。
哭2 ニュ〖ラルネットワ〖クの答塑弄なニュ〖ロンモデル
この遍換達(dá)を驢眶事べ、呵姜弄に叫蝸されたデ〖タを肌のニュ〖ロン∈遍換達(dá)∷に掐蝸する。黔を千急する眷圭には、黔かそうではないかを賴豺のデ〖タと孺秤して冉們するが、稍賴豺なら嫡帕嚷といわれるバックプロバゲ〖ション緘恕を蝗い、叫蝸婁から掐蝸婁に提りながら腳みを恃えていき、できるだけ黔という賴豺に奪燒くまで拎侯を帆り手す。
稱ニュ〖ロンに陵碰する絡(luò)翁の遍換達(dá)は叫蝸したデ〖タをメモリに瘦賂しておき、肌の遍換達(dá)に掐蝸する箕に粕み叫して姥下を浩刨紛換するため、デジタル攙烯としてはMACとメモリ∈DRAM∷をそばに彌き、辦つのニュ〖ロンを遍換した稿、遍換馮蔡をメモリに瘦賂し、肌のニュ〖ロンへそのメモリ柒推を掐蝸してまた遍換を乖う。しかも事誤で遍換する。このため、MACとメモリを?yàn)搐趣筏品eつ菇喇がAIチップの答塑菇喇となる。この慌寥みでは、遍換と、その馮蔡を肌の遍換達(dá)に帕える奶慨沸烯、が腳妥な攙烯妥燎となる。光廬メモリと遍換コアは高いにそばに彌き、この灤をアレイ覺(jué)に畝事誤に芹彌する。
CerebrasのWSEには40它改のAIコアを礁姥しており、それらは乖誤喇尸に0が驢い諒乖誤∈sparse matrix∷となっているため、SLA∈Sparse Linear Algebra諒俐妨洛眶∷コアが票家のニュ〖ラルネットワ〖クの答撩となっている。コアは井さく、キャッシュメモリを崔まず、戮の簇眶やオ〖バ〖ヘッドも崔んでいない。ただし、SLAコアはプログラム材墻であり、ニュ〖ラルネットワ〖クの腳みを極統(tǒng)に恃えられる。しかも、稱コアは擴(kuò)告借妄とデ〖タ借妄の尉數(shù)を悸乖できる。擴(kuò)告借妄は事誤遍換できる郝篩として蝗われ、デ〖タ借妄は遍換そのものに蝗われる。
このチップでは諒乖誤の齒け換で、0をかける遍換が驢ければ痰綠な遍換が籠えることになるため、それを臼くような借妄を乖う。ニュ〖ラルネットワ〖クでは、デ〖タの50~98%がゼロになることが驢いが、この眷圭には齒け換をしない。
CerebrasのWSEは18GBのメモリと9.6PB/sのメモリバンド升を積つ。いずれもGPUと孺べて3000擒、1它擒驢いという。レイテンシは1サイクルのみで、鏈てのモデルパラメ〖タはオンチップに積つ。
このWSEのもう辦つの潑墓は、光廬奶慨ファブリックである。AIチップでは、MAC遍換達(dá)の眶とそのスピ〖ド、そしてフレキシビリティが拉墻を瘋める。稱コアはレイヤ〖眶と鼎に撅に瓢侯しており、光廬のバンド升と你レイテンシで瓢侯させることこそ拉墻を懼げるキモとなる。このためにコアをひと蓋まりにしてグル〖プにする。辦つのブロックにAIコアが腆4700改蓋めて礁姥しているのはそのためだ。
LSI染瞥攣では、チップ嘲の奶慨よりもチップ柒の奶慨の數(shù)が眶它擒も廬い。だからこそ、井さなチップ票晃を蘆にしてまとめ、EthernetやInfiniBand、PCIeなどで奶慨させて拉墻を澄瘦する。だから、辦つの叼絡(luò)なチップにした。
Cerebrasは、Swarmと鈣ぶ奶慨ファブリックを倡券し、チップ懼の絡(luò)翁の芹俐ネットワ〖クを侯り叫した。40它改のAIコアはSwarm奶慨ファブリックで2肌傅メッシュ覺(jué)に儡魯されており、100Pビット/擅という畝光廬のバンド升を悸附した。Nvidiaも驢眶の井さなGPUコアを事べ、それらをつなぐ奶慨芹俐を供勺している。CerebrasのWSEでもコア粗はレイテンシとバンド升を呵努步した沒(méi)い芹俐でつなぎ、稱遍換コアにハ〖ドウエア芹俐エンジンを肋けているという。これによって、辦つの咐駝のメッセ〖ジでコアからコア、レイヤ〖からレイヤ〖へと奶慨することができる。しかもコンフィギュアラブルでプログラマブルだとしている。Swarmはハ〖ドウエアの芹俐エンジンをソフトウエアで浩菇喇材墻にしており、ユ〖ザ〖迫極のモデルに圭うように池漿に澀妥な奶慨を恃えることができるとしている。この馮蔡、辦つのハ〖ドウエアリンクをメッセ〖ジが奶る眷圭のレイテンシは眶ナノ擅ですむという。
これだけのWSEであれば久銳排蝸はかなり光いはずだが、Cerebrasは久銳排蝸に簇しては部もコメントを叫していない。ただ、牢と般って、ス〖パ〖コンピュ〖タでは垮武でチップを武笛する緘恕が年緬しており、この叼絡(luò)なチップも武笛墻蝸の光い垮武を網(wǎng)脫するに般いない。
かつてのWSIは馮渡、睛墑になりえなかった。殊偽まりが紊くならなかったためだ。しかも脫龐がメモリであり、コストを布げられなかった。海攙のチップがモノになるかどうかはディ〖プラ〖ニングの池漿見(jiàn)妥によるが、拉墻がケタ般いに紊くなることだけは澄かである。
徊雇獲瘟
1. Cerebras家のホ〖ムペ〖ジ