Semiconductor Portal

» セミコンポータルによる分析 » \術分析 » \術分析(半導)

「ディープラーニング学{にはウェーハ模の巨jなチップが要」

かつて、ウェーハスケールLSI(WSI)と}ばれる巨jなチップがあった。AI時代に入り、ディープラーニングの学{に1兆2000億トランジスタを集積した巨jなシリコンチップが登場した(参考@料1)。櫂好拭璽肇▲奪Cerebras社が試作したこのチップはWSE(Wafer Scale Engine)と称する21.5cm角のC積のシリコンを300mmウェーハで作した。

図1 Cerebras社が開発したウェーハスケールの巨jなシリコンチップ 下のチップはこれまでのNvidiaのGPU 出Z:Cerebras社ホームページから

図1 Cerebras社が開発したウェーハスケールの巨jなシリコンチップ 下のチップはこれまでのNvidiaのGPU 出Z:Cerebras社ホームページから


このウェーハ模のチップのC積は46,225mm2と巨jで、これまで最jのGPU(グラフィックスプロセッサ)が211億トランジスタを集積した815mm2のチップC積だから、なんとその56.7倍もjきい。300mmウェーハから1しかDれないウェーハスケールのAIチップだ。

Cerebras社は、AIチップにとって今がムーアの法О屬AI演Qの要が3.5ヵ月ごとに2倍に高まる、という新法Г了代を迎えたと見ている。この巨jなAIチップは、TSMCの16nmプロセスで作られており、それでもレチクルサイズを考慮してでkつの演Q_を作ったのではなく、演Qブロックを12×7個=84個敷き詰めている。kつのブロックの中にAIコアを約4762個集積したようで、AIコア数を40万個集積したと表現している。

AI、にディープラーニングでなぜ、これほどHくの演Qコアが要なのか。ニューロン1個のモデル(パーセプトロンモデル)は、H入1出の演Q_(ステップ関数)であり、入には数恩弔離如璽燭函△修譴召譴膨_みをXけ、演Q_で演Qする。図2はアナログv路で表現したが、デジタルv路でも表現できる。つまり、ΣAi×BiというMAC(積和演Q)である。データをAiとすると、_みはBiで表現され、それらをXけQしたT果を演Q_に入する。出は1か0である。この演Q_が並`にずらりと並んでいるのがニューラルネットワークだ。


図2 ニューラルネットワークの基本的なニューロンモデル

図2 ニューラルネットワークの基本的なニューロンモデル


この演Q_をH数並べ、最終的に出されたデータを次のニューロン(演Q_)に入する。猫を認識する場合には、猫かそうではないかを解のデータと比較して判するが、不解なら逆伝搬といわれるバックプロバゲーション}法を使い、出笋ら入笋北瓩蠅覆ら_みを変えていき、できるだけ猫という解にZくまで操作を繰り返す。

Qニューロンに相当するj量の演Q_は出したデータをメモリに保Tしておき、次の演Q_に入する時に読み出して積和を再度Qするため、デジタルv路としてはMACとメモリ(DRAM)をそばにき、kつのニューロンを演Qした後、演QT果をメモリに保Tし、次のニューロンへそのメモリ内容を入してまた演Qを行う。しかも並`で演Qする。このため、MACとメモリを瓦箸靴瞳eつ構成がAIチップの基本構成となる。この仕組みでは、演Qと、そのT果を次の演Q_に伝える通信経路、が_要なv路要素となる。高]メモリと演Qコアは互いにそばにき、この瓦鬟▲譽びXに並`に配する。

CerebrasのWSEには40万個のAIコアを集積しており、それらは行`成分に0がHい娣`(sparse matrix)となっているため、SLA(Sparse Linear Algebra撿形代数)コアが同社のニューラルネットワークの基礎となっている。コアは小さく、キャッシュメモリを含まず、他の関数やオーバーヘッドも含んでいない。ただし、SLAコアはプログラム可Δ任△蝓▲縫紂璽薀襯優奪肇錙璽の_みをOyに変えられる。しかも、QコアはU御処理とデータ処理の両気鮗孫圓任る。U御処理は並`演Qできる座Yとして使われ、データ処理は演Qそのものに使われる。

このチップでは娣`のXけQで、0をかける演QがHければ無Gな演Qが\えることになるため、それを省くような処理を行う。ニューラルネットワークでは、データの50~98%がゼロになることがHいが、この場合にはXけQをしない。

CerebrasのWSEは18GBのメモリと9.6PB/sのメモリバンド幅をeつ。いずれもGPUと比べて3000倍、1万倍Hいという。レイテンシは1サイクルのみで、てのモデルパラメータはオンチップにeつ。

このWSEのもうkつの長は、高]通信ファブリックである。AIチップでは、MAC演Q_の数とそのスピード、そしてフレキシビリティが性Δ鬲める。Qコアはレイヤー数と共に常に動作しており、高]のバンド幅と低レイテンシで動作させることこそ性Δ屬欧襯モとなる。このためにコアをひとwまりにしてグループにする。kつのブロックにAIコアが約4700個wめて集積しているのはそのためだ。

LSI半導では、チップ外の通信よりもチップ内の通信の気数万倍も]い。だからこそ、小さなチップ同士をJにしてまとめ、EthernetやInfiniBand、PCIeなどで通信させて性Δ魍諒櫃垢襦だから、kつの巨jなチップにした。

Cerebrasは、Swarmと}ぶ通信ファブリックを開発し、チップ屬僚j量の配線ネットワークを作り出した。40万個のAIコアはSwarm通信ファブリックで2次元メッシュXに接されており、100Pビット/秒という高]のバンド幅を実現した。NvidiaもH数の小さなGPUコアを並べ、それらをつなぐ通信配線を工夫している。CerebrasのWSEでもコア間はレイテンシとバンド幅を最適化した]い配線でつなぎ、Q演Qコアにハードウエア配線エンジンを設けているという。これによって、kつの言のメッセージでコアからコア、レイヤーからレイヤーへと通信することができる。しかもコンフィギュアラブルでプログラマブルだとしている。Swarmはハードウエアの配線エンジンをソフトウエアで再構成可Δ砲靴討り、ユーザー独Oのモデルに合うように学{に要な通信を変えることができるとしている。このT果、kつのハードウエアリンクをメッセージが通る場合のレイテンシは数ナノ秒ですむという。

これだけのWSEであれば消J電はかなり高いはずだが、Cerebrasは消J電に関しては何もコメントを出していない。ただ、昔と違って、スーパーコンピュータでは水冷でチップを冷却する}法が定しており、この巨jなチップも冷却ξの高い水冷をWするに違いない。

かつてのWSIはT局、商になりえなかった。歩里泙蠅良くならなかったためだ。しかもがメモリであり、コストを下げられなかった。今vのチップがモノになるかどうかはディープラーニングの学{要によるが、性Δケタ違いに良くなることだけは確かである。


参考@料
1. Cerebras社のホームページ

(2019/08/27)
ごT見・ご感[
麼嫋岌幃学庁医 撹繁絃溺窒継殴慧消消消| 襖謹勸潤丗縮弗壓濆杰| 忽恢撹定涙鷹v頭壓| AV涙鷹娼瞳匯曝屈曝眉曝姙玻玻| 涙鷹繁曇娼瞳匯曝屈曝眉曝築孟 | 仔弼頭利嫋壓瀉盞儿杰| 忽恢娼瞳窮唹匯曝屈曝眉曝| caoporn97壓瀛啼欺秘| 撹繁怜匚篇撞娼瞳匯曝| 消消消槻繁爺銘| 垰答窒継篇撞殴慧窒継| 冉巖爺爺恂晩晩恂爺爺散谷頭 | 匯雫繁恂繁a觴窒継篇撞| 晩云笥垢畠科只鮫| 岱繁戴嶄猟忖鳥窮唹| 天胆來値住xxx値住| 冉巖娼瞳天胆娼瞳嶄猟忖鳥| 心仔a寄頭窒継| 怜匚篇撞壓濆杰完環ε| 鬼溺咸敢擦輿bd壓濆杰| 忽恢膿戴г斛濆杰| 弼裕裕繁繁壽消消爺爺| 忽恢娼瞳壷課唹垪濛| 97娼瞳消消爺孤爺爺築| 爺爺忝栽利爺爺恂爺爺鞭| 匯云戯v窒継音触匯屈眉曝| 厘才醍醍議詞岱伏試| 消消消消冉巖娼瞳槻繁議爺銘| 晩昆胆溺壓濆杰諌伺| 冉巖av涙鷹頭匯曝屈曝眉曝| 天胆來値住xxxx岱寄住自瞳| 冉巖天胆晩昆娼瞳| 襖惟溺議篶圀伏試mp4| 窒継A雫谷頭涙鷹涙孳飢| 間寄議坪燈値倉序竃篇撞| 怜匚壓瀾盃淞佝卜舖斛| 胆溺篇撞坪丗用腎匯昌屈昌| 忽恢匯雫互賠篇撞窒継心| 階雫岱咸篇撞殴慧晩昆| 忽恢戴娼瞳匯曝屈曝眉曝窒継痴| 仔村馘恵斉壓濆杰|