メッセージを送る

ニュース

March 11, 2021

ドメイン スペシフィックの記憶

ドメイン スペシフィックのすべての激怒である実際の問題を避けている。

より大きい心配はプロセッサの性能を絞り、より多くの力を消費し、そしてほとんどの破片区域をとる記憶である。記憶は既存のソフトウェアによって好まれる堅い構造から自由に壊れる必要がある。アルゴリズムおよび記憶が一緒に設計されているとき、性能の改善は重要であり、処理は最大限に活用することができる。

ドメイン スペシフィックの処理はTuringの2018年の講議によって、「ジョンHennessyおよびデイビッド・パターソンによるコンピュータ・アーキテクチャのための新しい黄金時代」、大衆化された。しかしプロセッサは長年に渡る記憶によって強いられた。記憶および記憶階層の再考なしの変更の処理はそのシステムのある特定の部分が改良されるとき間の数学関係をスピードをあげるシステムのための可能の提供するアムダールの法律を無視する。それは基本的に収穫逓減を得ると言い集中すれば全体としてシステムを見るよりもむしろシステムの一つだけに。

従ってネックに集中しないためになぜか。「ドメイン スペシフィックの記憶ちょうど新しい言葉であるが、建築家はこれらの種類のずっと最適化を長い間している」、はPrasad SaggurtiをSynopsysの製品マーケティングのディレクター言う。「持っていなければほとんどの人々がずっとそれを」。しているので、トリックを逃して、

他の人々は一致する。「ビデオ メモリを覚えなさい—作り付けのシフト レジスタとのドラムか」。Arteris IPでミハエル フランク、仲間およびシステム建築家に尋ねる。「多分GDDR [1-5]、特別な隠し場所の札記憶、または連想記憶装置TTLの日でか。多くのこれらは実際に機能性が余りに特定だったので存続しなかった。それらは独特な装置を目標とした。十分に大きい範囲を必要とし、大量および大規模な製造業の利点が」。ある今日のドラムの安価に対して戦っている、

時々それはそれより深く行く。「ROMに何かを接続するかもしれない」SynopsysのSaggurtiを言う。「記憶を今日微調整しているより多くの人々があるか私達が見ている何。例えば、フーリエ変換と、ある特定の順序で係数を貯えることができるようにまたはZは変形する、人々はコードを書く。マトリックスの乗法をしているとき、それを読むことがより速くあるようにある特定の順序で係数を貯えることができる。その代り多数のデータ・パスを通して事を読むことができるように3つか4つの記憶にそれを置く1つの記憶でデータを貯えないことができる。これらの種類のずっと事はもっと最近起こっている」。

変更は堅い。「挑戦、人々は素晴らしいのがあった、スティーブンが発明家Rambusで懇願し、そして顕著なことを計算機システムについて考えることのための抽象モデル」、は言う以前ことである。「彼らは記憶について決して実際に考える必要がなかった。それは自由のために現れり、記憶への参照をしたときにプログラミング モデルはそれにそれをそのような、それちょうど起こった作った。」。していたことをについて決して明確でなくてもよろしくなかった

進歩は一般的な記憶性能でなされている。「高度のケイ素の技術から得ることができるものを今日の記憶コントローラーおよび高度のインターフェイス規格は劇的に」言うArterisのフランクを改良した。「これは深い列および高度のスケジューラーを可能にした。高度のメモリ技術、高い帯域幅の記憶(HBM)のような、および私達が前にちょうど十年達成すること不可能考えたサポート死ぬために積み重ねられる帯域幅。けれどもそれは安く来ない。副10 nmの技術はまた可能にする大きい隠し場所を、そう多分私達ことができるこの貧乏人のドメイン スペシフィックの記憶を呼ぶ」。

しかしこれらは小さい増加変更のすべての例である。「建築家がに慣らされること計算が主にデータに続くArchitecting記憶サブシステム、他の方法よりもむしろ、多くの教訓の重要な再考を」、は言うマットHorsnell、腕の研究開発のグループのための年長の主な研究エンジニアを要求する。「計算の単位とデータ項目間の相対的な間隔の同時発生そして概念を内部に閉じ込める拡大された用紙にデータの操作の今日の典型的なリストからのプログラミングの抽象的概念を、高める機会がある。そのような抽象的概念はもっと最上ににアルゴリズムが」。急速に展開しているとき必要な変形がドメイン スペシフィックの記憶を目標とすることを可能にすることができる

運転席のデータ センタ
データ センタは多くの技術動向のための今日運転者である。「計算のための最も成長が著しい適用の1つソフトウェア・アプリケーションがより多くの記憶容量を懇願するデータ センタにである、より低い潜伏の帯域幅」、はRavi Thummarukudy、MobiveilのためのCEOを言う。「最も最近の業界標準の、計算明白なリンク(CXL)、システム建築家の出現で層DDRn DIMMSで主記憶操置の間で必要とされる記憶およびCXLベースのDDRnまたはより新しい耐久性がある記憶はできる。記憶のこれらの層の潜伏そして経済的な特徴は異なって、それは与える建築家に条件に適するために記憶を組み合わせるように選択を」。

それは遺産の記憶建築の継続である。「多くのOEMsおよびシステム・ハウス彼らの特定の作業負荷にケイ素をカスタマイズするように彼らの自身のSoCsを設計している」はティムKogel、Synopsysの主な適用エンジニアを言う。「性能および力の利益のための最も大きい機会は支持の結合の建築とともに記憶階層の特殊化である。

力を考慮しなさい。「現在の建築、AIの作業負荷のためのエネルギーの90%でデータ移動によって消費され、重量および活発化を外的な記憶、オン破片の隠し場所の間で、そして最終的に計算の要素自体に移す(図1)を見なさい」、Arun Iyengar、Untether AIのCEOを言う。「推論加速のための必要性に焦点を合わせることおよび出力効率を最大にすることによってだけ行う前例のない計算の性能を提供することできる私達は」。

記憶最適化は設計のすべての面に触れるシステム レベル問題である—ハードウェア、ソフトウェアおよび用具。「記憶を最大限に活用する作戦多様で、適用範囲によって決まる」、はKogelを加える。「最もよい作戦はoff-chipメモリー アクセスを全体で避けることである。ドメイン スペシフィックの建築のために、これを隠し場所の形で利用できるオン破片の記憶を高めることによって普通、達成することができるまたは適用は記憶を管理した。特に深い学習の加速装置の区域に、利用できるオン破片の記憶はニューラル・ネットワークの塗布がターゲット ハードウェアにいかに編集されるかまた影響を与える決定的な設計パラメータである—例えば、回旋オペレータのタイル」。

多くの設計は行くためにこれより更に見ている。「ドメイン スペシフィックの記憶概念空間的な計算の範囲で探検されている」、は腕のHorsnellを言う。「一例として、DSPsは直接従来の共有記憶システムより専門にされた適用の帯域幅の条件そしてアクセス パターンのためのよい適合である場合もあるソフトウェアで管理される分散記憶のプールを、頻繁に提供しがちである。固定機能ASICsの効率のギャップを繋ぐためには、これらのプロセッサは頻繁に特定のアクセス パターンに直接支援を提供することによって記憶特殊化の形態を提供する(N緩衝、FIFOs、ライン緩衝、圧縮、等のような)。これらのシステム内の管弦楽法の重大な面、およびそれらの設計の挑戦は、間同時発生を同時に最大にするコミュニケーションおよび同時性の間接費を最小にすることができるデータ・アクセスのための右の粒度を定めている。ソフトウェア複雑さを加える他の挑戦はプログラミング、一貫性、同時性および翻訳を含んで、主張する。但し、可能なルートは先にappsのデータの流れをさせることによってより明確に」。編集者が専門にされたメモリー アクセス パターンを識別することを可能にし、ハードウェアにそれらをもっと効果的に地図を描くことができるドメイン スペシフィックの言語(DSLs)に頼ることである

それはまた自身記憶を吟味することを支払う。「超カスタム化私達が記憶に関しては見る傾向」、は言うAnand Thiruvengadam、Synopsys内の係長の製品マーケティングマネージャーをである。「これは異なった終わりの塗布のための特別な目的のために建てられた記憶を意味する。AIのような特定の終わりの塗布の中ではサーバーで訓練するか、のまたはinferencingか、inferencing、または遠い端のinferencingのような記憶のための異なった必要性が、ある。これらの適用のそれぞれに異なった条件があり、記憶をカスタマイズしなければならないことをそれは意味する。このカスタム化は商品か在庫プロダクトとしてもはや記憶を見ることができないことを意味する。特定の適用のためのそれを造らなければならない。それは秘密ソースが」。作動するところである

多くの場合記憶および結合は緊密結合である。「何でも適用作業負荷のデータ・アクセスの条件を満たすために記憶および結合の技術の結合に関しては行く—例えば、データの流れの適用の場所、またはCNNの加速装置の緩衝剤処理の特徴の地図のための巨大な多重バンクの/複数の左舷に取られたオン破片SRAMs、および洗練された一貫性の議定書の深い隠し場所階層を中心の作業負荷生温い働くデータ セットを軽減するのに利用するために結合するローカル メモリと処理する群がることの多数のレベル」。

小さな変更は大きい結果をもたらすことができる。「AppleがM1と行った小さい奇跡のちょうど一見」、フランクを言う。「彼らはいかに建築家に理性的な貯蔵の作戦および巨大な、多重レベル隠し場所階層を使用して多数の異質マスターを」。よく機能する記憶サブシステムか把握した

場合、ソフトウェアはである慣性のアンカー頻繁に同様にある。「アルゴリズムが大いによりよく実行されるように、あるアルゴリズムがある、私達がそれを最大限に活用する方法を最大限に活用する記憶を」言うSaggurtiを見るか起こり何が通常。「裏面で、私達にこれらの異なったタイプの記憶がある。これらの新しい種類の記憶を利用するためにあなたのアルゴリズムを変えることができるか。以前、TCAMsを使用してIPアドレスを調べる大抵ネットワーキングの範囲の構造物はあった。もっと最近、訓練エンジンはTCAMsを使用し始めて、それは非常に別のアプローチである。これはソフトウェア、かファームウェアが利用できる記憶のタイプに基づいて変わることを必要とする。結果として生じる実施をよりよくするためにしかしほとんどの場合、ソフトウェアはとどまる固定および記憶変更に」。

効率意識
長時間そしてお金人工知能にこのごろ投資されている。注文破片は効率によって強いられ、それは記憶および結合にスポットライトを置いている。

「歴史的に、記憶および結合の建築は静的な展開表に基づいて設計されていたまたはrooflineの性能モデルのような簡単な解析モデル」、Kogelを言う。「最新式の適用、これのためにかなり複雑になる。例えば、CNNのあらゆる層の必要メモリを予測することはタイルを張るおよび層の融合のようなコンパイラによる最適化の考察を要求する。これらの静的な方法は多様なIPサブシステムおよび動的適用シナリオとのSoCレベルの作業負荷の予言そして最適化のために不合理に複雑、に不正確になる。一方では、ハードウェア模範化かプロトタイピング システムの上を適用を動かすことは記憶設計の徹底的な変更か主要な最適化を作る開発プロセスに余りに遅くある」。

それは意図されていた作業負荷に焦点を置く。「有効な記憶サブシステムへのキーあなたの作業負荷の知識である」、はフランクを言う。「それをあなたの記憶階層の限定とより互換性があるようにする方法でそれを形づけるいかにするか理解して、多分、これは建築が挑戦されるところである。ドメイン スペシフィックの加速装置は調整された記憶装置を要求する—そして『インピーダンス』が大量生産される一致させる変形エンジン、ページの整頓されていた、burstyアクセスのドラムおよびエンジンのアクセス パターンを造ることの芸術はシステム挙動に洞察力を要求し、と遊ぶために用具および多くの作業負荷を模倣する。時々それは作業負荷が総合システムを改良できるためにデータを処理する方法を変えることを取る。よい例はだった『直接』レンダリングからのGPUsのタイル ベースの処理への転移』。

それはすべて模倣およびシミュレーションに来る。適用作業負荷を模倣する「私達は事実上のプロトタイピング用具の使用を提案する結合および記憶建築の正確なトランザクション レベルのモデルとともに」、Kogelを言う。「この量的な『建築の最初に』アプローチは信頼できる実施の指定に終って早いトレードオフ解析を、可能にする。付加的な模倣およびシミュレーションの努力を犠牲にして、利点は性能および力ターゲットを逃す減らされた危険、またはハードウェアをoverdesigningの減らされた費用大事を取ってである。ムーアの法律からの収穫逓減の時代では、機会はより最大限に活用され、より区別されたプロダクトと出て来ることである」。

それはアルゴリズムの変更の影響が同様に見られるようにする。「戻る必要性があり、アルゴリズムを設計し直すため」、Thiruvengadamを言う。「それらは従来の遺産の記憶建築のために設計し直してもいいかまたは新しい建築、新しい記憶様式、新しい記憶味のために設計し直すことができる。性能のスケーリング、量り、また異なった適用のためのトレードオフのバランスをとれる費用のためのこの一定した押しがある。これはMRAMsおよびFeRAMsの継続的だった開発をなぜ見ているか本質的に理由である。彼らはすべての変数少なくとも幾つかの変数のための甘い点を見つけることを試みていない。記憶建築と共にアルゴリズムを設計し直すための必要性は確かになっている重要に」。

バランスは必要である。「計算の強度の概念について考える必要があり、含まれる操作のタイプ」フランクを言う。「他はデータの比較的少量だけたくさんのそれの操作を行うために動かすが、ある特定のアルゴリズムに飽くことのない帯域幅の条件がある。内部記憶操作はSIMDタイプの処理のために指示の帯域幅がデータ帯域幅に関連して小さく、多くの要素が同じ調理法を使用して処理されるところでよく働くかもしれない。しかしデータ・ストリームまたは不規則なデータの流れに順次依存があるとすぐ、ドメイン スペシフィックの記憶収縮の利点」。

注文の記憶
建築変更が大きい結果を生むかもしれない間、記憶を最大限に活用することはまた利益を提供するかもしれない。「今日の加速装置の力そして区域の大きい割合記憶で使用される」、はHorsnellを言う。「新しいメモリ技術によって達成されたそうどの潜伏/密度/エネルギー改善劇的な影響があることができる」。でも

注文の記憶はなる大企業である。「内部記憶計算、ほぼ記憶計算、書すべてゼロの記憶であるかもしれない特定の記憶のような事を見始める—ある特定のタイプの操作のために最大限に活用される記憶」、Saggurtiを言う。「私達はMRAMについて私達、SRAMsのさらにカスタム化、TCAMsおよびTCAMsにある特定の心痛を頼むのを見ている多くの顧客が」。

難しさは、しかし残る。「私は記憶で処理する注文の記憶設計に関する多くの議論が死ぬであろう『理想的な』建築あった』、フランクを言う。「それは高い帯域幅、低い潜伏、等を提供しよう。すべてはどんな論理が統合できるか記憶プロセスが限っていたこと、事実を除いて右、だった—ローパワー3つか4つの金属の層しかし遅いトランジスター。それは計算エンジンのための非能率を意味した。クロック速度および回路計算量を犠牲にすることは突然もはやしなかった計算エンジンの統合にあまりよい選択を」。

しかしこれらの変更の一部は必要になる。「人々破片のフラッシュを持って来たいと思い、それに埋め込まれたフラッシュをするため」、はSaggurtiを言う。「それから質問、『であるそれは可能なるか。『28nmに埋め込まれたフラッシュをされるかもしれないが人々は22nmでMRAMのような事について考え始める』。

まだ、問題を見る他の方法がある。「ウエファーとダイスを渡るプロセス可変性、およびそのうちに、限界の記憶設計」、Saggurtiを加える。「記憶を設計するとき、ビット セルが1つの方法行くとき簡単なSRAMの場合のために設計しがちである—遅い—そして周囲は他の方法行く—速く。それのために設計すれば、そしてあなたのケイ素の大半が典型的なら、テーブルに多くの性能および力を残している。プロセス範囲におよびチップ設計者がその情報に行動することを可能にするためにどこにあるか理解すればタイミングをそれに応じて調節できる。あなたの設計は最適であることができ最悪の場合のために設計する必要がない」。

結論
記憶は設計トレードオフの常に間、それが帯域幅、力および区域の点では性能の振幅制限器であるのに、ずっと処理として決して同レベルの注意を受け取っていない。AIにより人々は記憶建築をやむを得ず再考するがその余分関心と、設計チームはまた遺産の記憶装置のために最大限に活用されたソフトウェアおよびアルゴリズムのいくつかを再考するかもしれない。性能の利益が18か月毎にの間自由に来ない世界では、極度な測定はなる商品からプロダクトを停止する唯一の方法になっている。(ブライアン ベイリーから)

連絡先の詳細