Semiconductor Portal

» 寄M » 寄M(半導応)

ニューロチップ説 〜いよいよ半導の出番(4-3)

ニューロチップの代表例として、(4-3)では圧縮\術をいたチップの開発例として、Googleが開発したニューロチップTPU(Tensor Processing Unit)、およびStanfordj学を中心に研|されている圧縮\術Deep Compressionを紹介する。圧縮は、量子化ビット数を32ビットなどから16ビットあるは8ビットに削する\術で、ニューロチップの電効率を屬欧襪發痢少々長いが、チップ化には要な\術である。(セミコンポータル集室)

著v:元半導理工学研|センター(STARC)/元東 瀬 啓

4.3 代表的チップ(圧縮\術をいたチップ)〜乜縮、量子化そしてロスレス
本Iで扱うデータおよび_みの圧縮\術は実行だ。共通の認識は「学{時には誤差逆伝鯔,猟_みを微調する際に@度を要しHビットが要」という点だ。@度劣化に関しても小さめで0.5%度までである(この容J囲は適のアプリの仕様にjきく依Tするはず)。

本Iの(1)でGoogle社のASICであるTPUに関連する\術を、(2)と(3)でStanfordj学を中心としたDeep Compressionに関するk連の\術を説する。なおivはデータセンタからモバイルはもとよりIoT (エッジ)までのt開を狙い、後vはモバイル(エッジ)官の|極(?!)を狙っている。そして、最後に(4)で他のチップ(IoE等:4.1Iで説)の圧縮\術も含めてを茲垢襦なお、圧縮\術にはBinary Connect/Binarized Neural Networkといったバイナリでの学{・実行処理を探求する動向もあるが、本寄Mでは割愛した。またTPUに関しては、2017Q4月にGoogleよりTPUに関しての詳細な紹介、及びb文が出たのでそちらを参照してほしい。以下のブログよりb文のダウンロードが可Αhttps://cloudplatform.googleblog.com/2017/04/quantifying-the-performance-of-the-TPU-our-first-machine-learning-chip.html)。

図35はここ1QでのGoogleとStanfordj学を中心とした2つの動きを時U`でまとめたものだ。圧縮処理の桔,らLSI実◆GoogleはASICを開発・使中)、実応へとにt開しているのが見てDれる。に徴的なのは、NMT(Neural Machine Translation:RNNベースのニューラル機械翻l)をY的として研|・開発がである点だ。T合層を主として数メガバイト(1ギガ)級のサイズのネットワークモデルである。Zい来、スマホでO動翻lがスタンドアローンでできるようになる勢いだ。日本語をスマホにBしかけると、スマホが中国語をしゃべってくれるのも間Zかもしれない。


図35 圧縮\術の開発の2つの流れ(狙うはモバイル/エッジ応)

図35 圧縮\術の開発の2つの流れ(狙うはモバイル/エッジ応)


(1)TPU (Tensor Processing Unit) Google社〜データセンタからエッジへ
図35にすように、TPUは、2016Q5月18日にGoogleのブログで発表(参考@料94、95)された。2014Q本格開発}、2015Q春にはチップを、そして22日で実効的に使えるようになったとのことだ。データサーバで使われる実行の専ASICチップである。実際にRankBrain/Street View/Alpha Go等に使されたとのことだ(図36)。

Alpha Goに使されたいわゆる人工Δのラックだ。GoogleのTensorflowのライブラリ屬覇阿ことがi提である。内陲魯如璽拭δ_み共に8ビットで演Q、エネルギー効率が1桁(10倍)改された。ハードウェアの詳細は不だ。32ビット浮動小数点演Qを、8ビットで演Qしているなら演Qv数が1/4に少(]度)、1演Q当たりのメモリアクセス負荷が1/4に削するからエネルギー効率が10倍度向屬垢襦(崕劼b文では、相竿羈咾世CPU/GPUの]度比15〜30倍、エネルギー効率30〜80倍と報告されている)。なお、入出霾は32ビット浮動小数点のまま扱えるのがポイントである。


図36 TPUが実△気譴織棔璽鼻丙検法▲如璽織札鵐燭任亮孫墫X況(ラックに搭載:図) Alpha Goで使されたサーバラック(盤の絵がaりけられている) (参考@料94 Google Cloud Platform Blogより転載)

図36 TPUが実△気譴織棔璽鼻丙検法▲如璽織札鵐燭任亮孫墫X況(ラックに搭載:図) Alpha Goで使されたサーバラック(盤の絵がaりけられている)
(^真は参考@料94 Google Cloud Platform Blogより転載)


GoogleユーザーのAI使量(実行)の指数関数的なPびへの眼^策と見てとれる(3〜4倍のユーザーを相}にできる)。またパワー低によるデータセンタの維eコスト低にも繋がる(メインテナンスを含めたコストメリットは10倍)。Googleのビジネス成長のための戦Sエンジンと見ることができる。逆に見るならば、その性Ω屬瞭濂修AIの発t・成長への]要因となる。またユーザーは無T識のうちにその恩L(v答が早いなりAIも賢くなったと感ずる)をpける。

ただし3〜4倍のスピードアップでは1〜2Qしかeたない。エッジ笋納孫圓僚萢をしないと早々にデータセンタはパンクする。にO動翻lの性Δ屬り、Sが本格的に使い出したらたまったものではない(今はまだまだ未成^で原語で読まざるをuない)。

k機▲▲襯乾螢坤燹△發靴はプログラム研|v、開発vにとってのメリットもjきい。なぜなら学{は@度が要なことから32ビット度の浮動小数点の使が現Xcけられない。その32ビットのコードをGoogleに渡し、TPU屬覇虻遒気擦襪4倍]く動作できる。TPUからBはずれるが、w定の_み(パラメータ)も1/4となることから、モバイルへのt開(通常100MB以下がモバイルへの搭載可のリミットと聞いている)、すなわちGoogle Play屬任旅眦戮AIプログラム実△鮨篆覆垢觚尭偉ともなる。この点からも次なるGoogleの戦Sが伺える。

図35にすように、5月以TのGoogle関連の情報をRってみると、2016Q7月にTPUをIPコアとしてベンチャー企業であるフランスのGreenWaves Technologiesに提供している(参考@料98)。ターゲットは世c最初の本格IoTチップだ(@称:GAP8 12 GOPS、20mW 2017Q2月チップ)。i述したが、TPUをグーグルのニューラル機械翻l(GNMT:Google Neural Machine Translation:参考@料99, 100)にも適してJに運しているとのことだ。Stanfordj学でも同様の動き(参考@料72, 73)をしており、機械翻l(音m認識も同様)はAI関連で最もホットな覦茲澄

量子化\術(Quantization)〜演Qスピードアップの単純な}法
ハードウェアに関しては情報がo開されていないが、ではkどのように8ビットに量子化するのかが瑤蠅燭づ世任△襦2016Q5月18日のTPUの発表に先立つこと2週間iの5月3日にGoogleのPete WardenのブログにTensorFlow屬覇虻遒垢詢婿匆修離魁璽匹よびその解説記がo開されていた(参考@料96)。かなり@性(だれでも~単に使えトラブルの少ない)のある圧縮\術と考える。なお、このPete Wardenは、元JetPec社のCTOで携帯画鞠Ъ吋愁侫函Apple Storeに掲載:Deep Brief Network:DBNベース)を売り出した矢先、2014QにGoogleに会社がA収された経歴をeつ(参考@料97)。峙のTPUの開発}と同じ時期だ。

図37に量子化のフローをす。参考@料96の図をまとめた。32ビット浮動小数点演Qを、内陲里8ビットのw定D数擬阿妊如璽/_み共にQする。_み(Weight)はiにオフラインでQしてもよいはずだ。問は、実データ(入徴マップ、出徴マップのQ値)をどのように処理するかである。図では性化関数(Rectified Linear関数/ランプ関数:ReLu)を例として使した。その8ビットでのReLu演Qのiにデータを32ビットから8ビットに変換する。

変換の桔,蓮入の32ビットデータ内のMaxとMinの間を256に分割して、線形に0-255 (8ビットのD数表現に変換)で割りける。なおこの線形に割りける}法はDeep Compression(参考@料45)で使されている}法と同じである。ReLuを8ビットで演Qした後、量子化を行う。笋凌泙H層の中壻を削除しスリム化したものである。もちろん、量子化が出来ていない演Qがあればその霾は32ビット浮動小数点で演Qするとのことだ。

課はちょっとした誤差が発擇垢訶世里茲Δ澄N婿匆修虜櫃隆櫃畍躡垢任△襦詳細はLibrary(参考@料96、Blog参照)を読み理解する要がある。Stanfordj学およびUC BerkleyのDeep Compression頏との議bがあった(参考@料96のコメント投M欄)。Pete WardenのT見は、Deep Compressionは演Q量がHすぎるとのことであった。
\術的にはシンプルだが、導入の背景(データセンタの演Q量の指数関数的な\加)と判理y(ともかく処理時間の]縮)が興味深い。の動きを見ているとTensorFlowのJ囲という|りを与えながら、エッジ/IoTへの実行処理々圓魏]化させるという戦Sが浮き出てくる。TPUはLSIもしくはIPとしてその戦Sコアとして位づけられると見ることもできる。


図37 データ量子化の}順 (Pete WardenのBlog(参考@料96)を参考に作成した)

図37 データ量子化の}順 (Pete WardenのBlog(参考@料96)を参考に作成した)


(2)Deep Compression (Stanfordj学など) 〜Q要素\術〜
図35にすように、Stanfordj学のSon Hanらのk連の発表(参考@料101、45、46)をベースとして、UC Berkleyのメンバーが加わり、行った最新のネットワークモデルSqueeze Netへの適、さらにはStanfordj学の機械翻lの専門家たちとの共同開発であるNMT(Neural Machine Translation:ニューラル機械翻l)への適と、かなりjがかりに研|開発が行われてきた。

本項では、二つのb文を扱う。kつ`は2015Q10月に発表、Pruningに関して扱ったb文、二つ`は、量子化およびハフマン符イ修魎泙瓩Deep Compressionを嚇に扱った本命のb文である。


図38 Deep Compressionの圧縮のステップ (参考@料45を参考にして作成)

図38 Deep Compressionの圧縮のステップ (参考@料45を参考にして作成)


b文(参考@料45)を参考にして図38を作成した。Deep Compressionは3つのPruning、クラスタ化(量子化)、およびハフマン符イ宗淵蹈好譽后砲らなる圧縮\術の総称だ。クラスタ化は量子化と言われているが、Google社のTPUで使しているものと\術内容は異なる。また図38にすように実際には、Pruning後の残った_みの位情報を圧縮する圧縮`格納擬亜CSC:Compressed Sparse Column)、さらには入データに瓦靴胴圓Ε璽蹈好ップがある(データの圧縮に関してはこの\術のみをいている)。なお、ゼロスキップはEyerissが実△靴討い襪發里帆世い脇瑛佑任△襦

}順をすようStep1〜Step5を記した。この5つのStepのうち、Pruningとクラスタ化は@度の劣化の可性があるが、それ以外はロスレスで本来@度への影xは無い。なお、Pruningおよびクラスタ化では劣化がこらないJ囲での圧縮を行っている(劣化は0.4%以下)。

(ア)Pruning\術 (参考@料101)
日本語にlすと、「枝おとし」とか「剪定」とかぴったりの@iがあるが、どうも\術語としてはいまひとつなのでそのまま、Pruningを使する。_みの圧縮は
(1)_みの量(数)・・・Pruning
(2)_みの位情報・・・圧縮`格納擬
(3)_みのビット数(量子化/クラスター化)・・・クラスタ化
のつの情報量をいかに圧縮するかにある。_みの量をらし、_みのビット数を絞る。しかし、弊害として (2)の_みの位情報が要となる。枝を落として圧縮するが、どこの枝を残したのかを覚えておく要がある。本\術では、専のメモリ(マトリクス)をTしている。SRAMだ。


図39 Pruning\術の説  (a) ネットワーク、 (b) _みの分布の変化 参考@料101を参考に作成

図39 Pruning\術の説  (a) ネットワーク、 (b) _みの分布の変化
参考@料101を参考に作成


Pruningの}順(参考@料101)
図39(a)のネットワークの図のように、不要な「枝/接」をそぎ落とし、「ニューロン」を削除する。そのとなるのは図39(b)にす不要なものである。図(b)もb文を参考に作成した。笋凌泙最初の学{によりuた_みの分布をす。この場合は±0.015の間にほとんどのものが入っている。Pruningのは、_みの値が小さいものである。なぜなら、値が小さいので次段への影xが少ないからである。Deep Compressionでは「しきい値」を設定して容赦なくPruningする。また_みがてゼロの時、もしくは出値がゼロの時ニューロンOも削除する。しきい値の設定の桔,砲脇Oの}法が入っているらしい。あまり確に書かれていない(Q層毎にPruningをするとか、パラメータをどの様に分割するかの}法らしい)。

削除した後、再学{を繰り返す。学{レートを1/10に落としてtに行う。びっくりしないようにゆっくりやるので時間がXかる。削除した後の_みの分布を(b)の下笋凌泙某した。その数は1/9となった。分布は初期Xより広がりをeつ。プラス・マイナスの2つの分布の形になっている点が興味深い。抑U性、興奮性シナプスを連[させる。

さて、この\術のオリジンは30Qiに遡る。参考@料102,103, 104にあるように、1990Qi後に確立した\術のリバイバルである。にYann LeCun(参考@料103)により、かなりtに検討されている。再学{、またかなり時間のXかる点、効果が1/8である点等、Jに約30Qiに報告されている。さらにk歩踏み込み、エラー関数の2次微分値を最少にする_みを削除する}法(あるT味BP法に考え気Zい)をいている。CNNのb文発表の9Qiである。LeCunはごTじのように現在もディープラーニングの世cをリードされている気覆里任△譖|の感動を覚える。

しきい値をjきくすると圧縮率は屬り、逆にエラー率も\加する。j模なネットワーク(AlexNet/VGGNetのImagenet/ILSVRC)でエラー率のK化がjきくても0.4%度と極めて小さい点に押さえている。彼らの最jと判した圧縮率は1/9である。8/9は不要な演Qだった。後述するクラスタリング(量子化)含めてどの度類瑤離織好にt開できるか(転ヽ{に使える)はまだ瑤觚造衒鷙陲呂覆ぁニューラル機械翻l(NMT)への応例は後述する。

位情報の圧縮(圧縮`格納擬亜CSC Compressed Sparse Column)
i述したように、しきい値によりそぎ落とした接(枝)の位を覚えておく要がある。彼らがk番を入れている点だ。図40(a)の_みマトリクスで覚えておく。マトリクスをk`の情報`にき換え、そぎ落とした接をゼロと見なす。さらににゼロがHいことから「圧縮`格納擬亜廚鮹いてマトリクス情報を圧縮する。色のゼロはT在だけをカウントして位情報を圧縮する。図(a)の下笋某した表記だ。この表記のために4ビットが要となる。15個ゼロが連なることを考えるとそうなる。T果、Pruningで擇残った_みは4ビットの位情報(Index)をeつ。以屬Pruningの}順と内容である。これをハードウェアに実△靴拭


図40 (a) _みの位情報の圧縮、 (b) _みの値のクラスタ化(量子化) 参考@料45を参考に作成

図40 (a) _みの位情報の圧縮、 (b) _みの値のクラスタ化(量子化)
参考@料45を参考に作成


(イ)_みのクラスタ化(量子化)
_みの位は圧縮したので、今度は値の圧縮だ。Deep Compressionでは、Q層ごとに_みをK平均法によりクラスタリングしている。図40(b)にすように、_みをクラスタリングし、グループ番、_みにわる。実際の値はグループの代表値(Centroid:32ビット)になる。学{は図40(b)にした代表値に瓦靴董▲丱奪プロパゲーション法による学{を反映させることにより行う。なお、この代表値の学{時の初期値は最j、最小値に瓦靴洞凩kに設定される。この単純なクラスタリング法だが、彼らがZ労した点だと推察する。

(ウ)ハフマン符イ
Deep Compressionでは、ハフマン符イ修鮹いている。ロスレスの圧縮\術である。本Iでの説は割愛する(参照@料45)。

(エ)ゼロスキップ
図40(a)の入ベクターと_みマトリクスのマトリクス・ベクター演Qの際に、入ベクター値の要素ゼロの場合はその霾の演Qをスキップすする。Eyerissでは50%度の圧縮の効果があったが、EIEの場合には、iにPruningが行われていることから効果は少ないと推Rしている。v路構成般に検凜轡好謄爐鮗△靴覆い箸い韻覆い茲Δ任なり_たい\術だ。ちなみにEyerissでは、単純にQPE内でデータを検瑤靴討い襪世韻里茲Δ澄

以屐Deep CompressionのQ圧縮のStep 1〜5(図38)を濃淡はあるが、説した。

引きき、複数のb文を参考にしてまとめたT果をす。
図41で、圧縮のフロー(a)とQステップでの圧縮の効果の流れ(b)を説する。データに関してはベクトル演Qをする際に、ゼロであればスキップする。_みに関しては、Pruningにより_みの数が9分の1になった後に、そのゼロ以外の_みの位情報に関しては圧縮`格納擬阿鯏する。4ビットの位情報(Sparse Indexes)に集約される。オーバーヘッドは16%となる。_みに関してはクラスタリングで量子化を行う。

32ビットからQ込み層(Conv)は8ビットに圧縮、T合層(FC)は5ビットにそれぞれクラスタ化される。8ビットは256|類に分けられ、5ビットは32|類に分けられたことになる。平均は(b)にしたように5.4ビットとなる。同時に256|類かつ32|類の合288|類32ビットの代表(Centroid)の_みをコードブックとしてeつ。AlexNetの場合、そのオーバーヘッドは0.1%と極めて小さい。その後、ハフマン符イ修魴个董_みは平均4ビットで表現され、位情報は3.2ビットで表現されるようになる。最後の実際の演Qでは、逆符イ重を行い積和の演Qを行う。

なお、RTしてほしい点は、図41(a)の符イ修霾は、学{の段階でオフラインで行っておく作業である。実行では、逆符イ修肇如璽燭離璽軛佑慮―个主なEIEの作業となる。


図41 Deep Compressionでの圧縮の流れ (参考@料45を参考に作成)

図41 Deep Compressionでの圧縮の流れ (参考@料45を参考に作成)


(3)EIE (Energy Efficient Inference Engine:Stanfordj学)〜モバイル適を狙う
i項に引きき、Deep Compression関連である。LSIへの実◆CADレベル)したものが何度も説しているEIE(Energy Efficient Inference Engine:参考@料46)である。

彼らはEIEの実△任蓮以下にす点で内容を微調Dしたり、b文の内容を変えている。
1.ハフマン符イ宗糞嬋簟イ宗砲牢泙泙譴討い覆ぁ
2.のビット数は16ビットw定小数点が出発点。
3.データにゼロスキップを入れている(圧縮率は3倍とjきい)。
4.T合に_きをいている(RNN/LSTM、O言語へのt開等)。
5.逆符イ修函▲如璽燭離璽軛佑慮―个砲茲蝓⊆孫圓行われる。
6.他のLSI例との比較/@(GPU/CPU)を加えた。

LSIとしての機Δ蓮Pruning、クラスタ化(量子化)の逆符イ修函▲璽軛佑慮―个函△修靴謄縫紂璽薀襯優奪肇錙璽の通常の実行である。別なv路の実△要だ。逆符イv路等を導入しないと、100 GOPS度の性Δ世、導入すると3TOPSと30倍の]度改がuられる。通常のCPU/GPUで実行すると、その]度改は3倍度と記されている。ハードウェアで専化することからk桁性Δ屬ることになる。v路的にはハフマン符イ宗糞嬋簟イ宗砲悗官は入れていない。理yは不である。基となるビット数は32ビットではなく、16ビットまで下げている。iに検証して劣化がないと判しての16ビットの採だ。8ビットは劣化がしかった。

Qの}順は以下となる。データ(Activation)のゼロ検出を行う。中心のU御ユニット(Central Control Unit)で64個の演QユニットPE (Processing Element)にゼロ値の演Qを分配している。ひまそうな演QユニットPEに演QをさせるようにU御している。その際に、入データの値とデータの位(index)をペアで送信する。位情報を元に官する_みの値と今度は_みの位を逆符イ修垢襦その際にSRAM内の娣`の値を使い、またコードブックより_みの実際の値を引っ張ってくる。その後やっと積和の演Qをする。


図 42  EIEの要仕様 (参考@料46を参考に作成)

図 42 EIEの要仕様 (参考@料46を参考に作成)


チップの構成とラフなレイアウトを、参考@料46を参考にして作成した。QPEは演Q陲鮹羶瓦昧の75%をめるSRAM(_み娣`)がDり囲む構成となる(memoryの~率は93%にも屬)。SRAM(_み娣`)がパワーにめる割合は54%だ。演QOのエネルギー消Jは10%と小さい。

AlexNet8, GoogLeNet22,そしてResNet34が搭載可
図42の笋了斗誉Δ鮨した。オンチップメモリの量は10MB咾澄AlexNetの_みに要なメモリ量は、圧縮で240MB(32ビット換Q)、Pruningとクラスタ化(量子化)で27分の1に圧縮されるとすると、9MB度の_みの容量が要なので、ほぼぎりぎりAlexNetのネットワークが格納できる。また、Q込み層が主のGoogLeNet22、ResNet34も圧縮率を10倍度と見積もっても、余裕をeって搭載可Δ澄

800MHz動作で、実行3TOPSの演Qξを誇る。エネルギー効率は5TOPS/Wと突出して良い。28nmをi提として4倍にすると性Δ蓮0.8となるも、ほぼ8mm角でかなりT合タイプのネットワーク(RNN)が実現できそうだ。

(4)圧縮擬阿里泙箸瓠ΑΑφ乜縮、量子化、ロスレス圧縮
表7に今まで述べてきたいくつかのニューロチップの圧縮\術をまとめた。次Iで説するTrueNorthも参考に入れてある。圧縮には、_みとデータに瓦垢襪發里あるが、_みにはピンク色を、データには黄u色をつけて見やすくしている。Q@の下に主に適している層(Layer)を記載してある。例えばEIEは主にFC層(T合層)に`している。それに瓦靴EyrissはCONV層(Q込み層)に化している(参考@料92にはT合層での検討も行っている)。

チップで見ると、TPU、EIE、IoEが積極的で、Eyerissはオーソドックスだ。Q主型でデータの圧縮(ゼロスキップ含め)をk優先としていると見ることができる。

表7のように圧縮を3つに分`することができる。乜縮は、単純にゼロと見なしてカットしてしまう圧縮法としてまとめている。エラー率に影xが出る場合がある。量子化は、それぞれの}法により値をき換えることによりビット数を圧縮している。ロスレス圧縮は本来失のない圧縮擬阿澄(なお、スキップ法もロスレスの}法だ)

(ア)乜縮
ニューラルネットワークにに徴的とみることができるゼロ、もしくはゼロZ辺のデータを削除(Pruning)したりスキップしたりする唹な桔,澄性化関数ReLUが効果を倍\している。積和演Qが基本なのでU命でもある(積により極小化し、和によって相されゼロ化される)。_みの場合には的な圧縮で、データの場合には動的な圧縮となる。かつ両桔,箸發棒賁臈なv路を入れる要がある。に_りの場合には残った接を覚えてかつ、実行ではしく動作させないといけないので複雑な印をpける。データの場合にはダイナミックな}法が要(Eyrissでは、PE内陲任僚萢に里泙辰討い襦法fT合の場合には接が広Jでかつ11であることからゼロと見なせる可性が高く効果がjきい(10倍以屐Ц機甑N長?!)。そのことから須\術だ。

(イ)量子化
TPUは単純な線形の圧縮(Max-Min値を線形に256分類)により8ビット化を行っている。k機Stanfordjのh価(EIE:参考@料46)では8ビットでは性ξ化がjきい(AlexNet80%→53%)との報告もある。TPUでは適例により使い分けているということかもしれない(なお、TPUOがビット数可変である可性もある)。

その点、EIEはクラスタ化により圧縮率を屬欧討い襦C噂磴砲笋襪8bitは無理だが、クラスタ化を行うと平均5.4ビット(Q込み層8ビット、T合層5ビット)まで圧縮が可Δ世伴臘イ靴討い襦zv路が要だ。よりの高い桔,法iIでも述べたがIoEのフィルタ/カーネル(_み)のパターン化により圧縮法がある。高次のカーネルレベルでの符イ宗徴抽出)と見ることもできる。しかし、考えようによってはネットワークの層が進むことOが、カーネルの抽化(マクロ化)であるから何が何だかわからなくなる。今後どのように進むのか興味のある\術だ。

(ウ)ロスレス圧縮
内陲任なり圧縮が進めば、効果は低く出ると考えられるが、1.5倍度の効果が見込めるようだ。


表7 圧縮\術のk覧

表7 圧縮\術のk覧


圧縮\術に関するまとめ
Q込み層(にC型のCNN)では余り思い切った策はDりにくい。効果が比較的低めに出るからだ。(次Iで述べるSqueeze Netは入れ込んでいるが)。
T合層を主とするネットモデルでは、積極的なt開があると[定している。場合によってはバイナリ・コネクトなりバイナライズド・ネットワークの出番かもしれない(参考@料41、42)。
初Mの段階から時間が経ち、現時点(3月)では2月のISSCC2017、及び2月後半のFPGA2017(International Symposium on FPGA 2017)の内容も判している。~単に述べると、Q込み層をターゲットにISSCC2017ではデータ/負荷共に量子化を行う\術の報告があった。層毎でビット数を最適化する}法(4-9bit)、さらには真にダイナミック(Real Time)に最適ビット数を検瑤啓孫圓垢桔,諒鷙陲あった。かなり限cまで詰め切った印をpけた。FPGA2017では1bit(Binary/XNOR) /2bit(ternary)に関する\術の報告がrんになされた。この\術に関してはある度\術的に妓性が見えつつ~りまた課も見えてきたX況である。

以屐4章では4.1Iから4.3IにXけて、CNN、DNN、および圧縮\術に関してのニューロチップの詳細を報告した。最終の5章では最Zの動向を加える。ニューロモルフィックチップとして最Z新しい広がりを見せるIBMのTrueNorthと圧縮\術(Deep Compression)の実⇔磴鮠匆陲垢襦最後に本寄Mのまとめとして動向と今後の課を述べる。

集R)瀬の現在の肩書は、LOj学 j学院情報科学研|科 学術研|^である。


参考@料 (1〜88まではこれまでの「ニューロチップb」参照)
  1. TeraDeep社の新△離曄璽爛據璽
  2. Market Video, "TeraDeep's Industry-First FPGA-based AI Inference Fabric Speeds Image Recognition, Video Analytics for On-Premise Appliances", October 18, 2016, TeraDeepの実的なPress Release/Xilinx/Micron, 20181018.
  3. XLINX, "TeraDeep's real-time video analytics run on (gasp) FPGA-based Micron/Pico Computing AC-510 platform", XILINXのDaily Blog, 20161018.
  4. Yu-Hsin Chen, Joel Emer and Vivienne Sze, "Eyeriss: A Spatial Architecture for Energy-Efficient Dataflow for Convolutional Neural Networks", 2016 ACM/IEEE 43rd Annual International Symposium on Computer Architecture (ISCA), EyerissのFull Paper版, 2016Q6月18日.
  5. 電子情報 2016Q10月16日,"Google、IBM、AMD、NVIDIAなどがより高]な@インターコネクト「Open CAPI」発表。サーバを10倍高]化にすると"
  6. Norm Jouppi, Distinguished Hardware Engineer, Google, "Google supercharges machine learning tasks with TPU custom chip", Google Could Platform Blog, 20160518, Google, TPUの発表
  7. 電子情報, Stacey Higginbotham, "Google Takes Unconventional Route with Homegrown Machine Learning Chips", The Next Platform, May 19, 2016, TPUに関して比較的@度の高かった電子情報, 20160519.
  8. Pete Warden's Blog, "How to quantize neural networks with TensorFlow", TPUに使われていると[定されている量子化\術, 20160503.
  9. IT Media, "Google、人工Ρのシティガイド企業「JetPac」をA収"
  10. EETimes Europe, Peter Clarke, "IoT processor beats Cortex-M, claims startup", TPUがIPコア(画鞠Ъ院砲箸靴IoTチップに搭載予定(GAP8), 20161104.
  11. Quoc V. Le & Mike Schuster, "A Neural Network for Machine Translation, at Production Scale", Google Research Blog, 20160927, GNMT(Google Neural Machine Translation)に関しての紹介記(b文の発表にあたって)
  12. Yonghui Wu, Mike Schuster, Zhifeng Chen, Quoc V. Le, Mohammad Norouzi, Wolfgang Macherey, Maxim Krikun, Yuan Cao, Qin Gao, Klaus Macherey, Jeff Klingner, Apurva Shah, Melvin Johnson, Xiaobing Liu, Lukasz Kaiser, Stephan Gouws, Yoshikiyo Kato, Taku Kudo, Hideto Kazawa, Keith Stevens, George Kurian, Nishant Patil, Wei Wang, Cliff Young, Jason Smith, Jason Riesa, Alex Rudnick, Oriol Vinyals, Greg Corrado, Macduff Hughes, Jeffrey Dean, "Google's Neural Machine Translation System: Bridging the Gap between Human and Machine Translation", GNMTのb文, 2016Q10月8日.
  13. Song Han, Jeff Pool, John Tran, William J. Dally, "Learning both Weights and Connections for Efficient Neural Networks", Pruning\術、スタンフォードj学、2015Q10月30日.
  14. Stephen Jose Hanson and Lorien Y Pratt, "Comparing biases for minimal network construction with back-propagation", In Advances in neural information processing systems, pages 177-185, 1989, 初期のPruning\術.
  15. Yann Le Cun, John S. Denker, and Sara A. Solla, "Optimal brain damage", In Advances in Neural Information Processing Systems, pages 598-605. Morgan Kaufmann, 1990, 初期のPruning\術(接数をらした).
  16. Babak Hassibi, David G Stork, et al, "Second order derivatives for network pruning: Optimal brain surgeon", Advances in neural information processing systems, pages 164-164, 1993, 初期のPruning\術.
ごT見・ご感[
麼嫋岌幃学庁医 消消忝栽消消消消88| 胆溺闇蝕寄揚斑槻繁涌| 槻繁斑溺繁訪30蛍嶝窒継| 忽恢娼瞳晩云匯曝屈曝壓濂シ| 冉巖弼翆翆匯曝屈曝眉曝| 天胆冉巖晩云総窃繁繁壽gogo| 撹繁曝篇撞訪訪訪訪訪| 冉巖晩云消消匯曝屈曝va| 弼圀醍狭忽恢牽旋娼瞳| 忽恢彿坿窒継鉱心| 消消消消涙鷹娼瞳忽恢音触| 侮匚訪訪牽旋gif壓濆杰| 忽恢忽囂匯雫谷頭| hkpic曳房蒙曝叫圭胆繁| 恷除嶄猟忖鳥窒継mv篇撞| 窒継心胆溺咨暴畠何| 窒継心槻溺和中晩竃邦栖| 弌h頭壓濂シ| 冉巖av晩昆忝栽匯曝屈曝眉曝 | jizz18互賠篇撞| 撹繁嶄猟娼瞳3d強只壓| 冉巖忽恢匚弼壓濆杰| 娼瞳忽恢怜匚尖胎頭音触| 忽恢及匯匈壓濆杰| 匯曝屈曝音触消消娼瞳| 晩昆壓瀲伺屈曝眉曝| 冉巖娼瞳怜匚忽恢va消消撹繁| 弼圀弼av窒継鉱心| 忽恢溺繁18谷頭邦寔謹18娼瞳| 99冉巖娼瞳篇撞| 涙鷹母絃α▲繁曇嗽間嗽寄 | 溺m片坪瓜距縮狛殻| 消消忽恢娼瞳窒継匯曝屈曝眉曝| 喟消仔利嫋弼篇撞窒継岷殴 | 爺爺唹垪撹繁窒継鉱心| 膨拶喟消壓濆杰潅盞冤嫋利峽| 18鋤槻溺訪訪訪怜匚利嫋窒継| 撹繁徭田篇撞利| 冉巖av涙鷹頭vr匯曝屈曝眉曝| 槻繁喘恁耶溺繁和附窒継篇撞| 忽恢丞秤娼瞳壓濆杰|