AMDの公式ブログで「Bulldozer」の20の質問パート2 バカ訳すみません

AMDの公式ブログで「Bulldozer」の20の質問パート2

  • 同じモジュール内でコア同士の「プログラム可能な」同期機能はある?またもし自分のマルチスレッドアルゴリズムを互いのスレッドに近いペアを組むことで性能を上げることはできるの?
    – Edward Yang

    • うん、良い質問だ。
    • 基本的にはOSがスレッドのスケジュールを管理する。WindowsやLinuxなら効果的にBulldozerのコア間のスケジュールをこなすよ。
    • OSは最高性能か最高ワットパフォーマンスのどちらを優先させるかでコア性能をブースとさせるよ。
    • だけど違うモジュールで最高性能をだすために自分でスケジューリングできるよ。
    • 二つの整数演算コアは完全に別れており、実行パイプラインはL1キャッシュではデータ共有されない。これはソフト側で最適化する必要はないから。
    • L2キャッシュは二つの整数演算コアで共有されており、同時に実行パイプラインから読むことができるが書込はどちらか一つのみなんで注意ね。
    • ということは、二つのスレッドが共有するL2キャッシュにフィットするようなデータを自分でセットすることが可能。これで性能がより向上するだろう。
    • 忘れないでほしいのは他のコアのこと。データ共有のメリットと次の実行可能なコアにデータを送るためのメリットを天秤にかける必要があるよ。
    • 通常すぐに実行可能なスレッドの側に次のスレッドを準備しておくことが良い。
    • もしマルチスレッドアプリケーションがL2キャッシュ向けに最適化していないかL3キャッシュ向けに最適化している場合、はっきりとスレッドを分けたほうが良い。努力しない方がいいよ。そうしなくてもスケジューラが最適に実行するから。
  • Bulldozerで違うモジュールの二つのコアで実行する場合と同じモジュールで二つのスレッドを実行する場合どのくらい性能がアップするの?
    – Simon

    • Hot Chip22でプレゼンした資料を見て。CMP(Chip MultiProsessing 複数のコアチップを一つのコアに納めた単純な方法)と比較して、二つの整数演算コアでの性能は大体80%向上する。
    • けどこれはリソースを共有しているから出せる性能。
    • CMPはいくつか欠点があり、それは熱とダイサイズが大きくなること。そのため性能が消費電力により制限されてしまう。
    • 簡単に考えて、4シリンダの300馬力と6シリンダーの360馬力のエンジンではどちらが排気ガスが少ない?
    • シリンダーあたりの馬力比は、75馬力/4シリンダーと60馬力/6シリンダーとなり、4シリンダーの方がシリンダーあたりの性能が高い。
    • けどエンジン全体で見ると、4シリンダのエンジンは低い性能で高いコストになり、より排気ガスが多くなるよ。
  • 現在IntelのNehalem EXベースの8ソケット64コアサーバをIBMとHPが出しているよね。Bulldozerベースのサーバではスケーラビリティをどのように出すことができるの?
    – David Roff

    • Bulldozerは現在の「Maranello」「San Marino/Adelaide」プラットフォームに適しているね。
    • 「Maranello」は4CPUをサポートしている高性能プラットフォーム。
    • 「Maranello」プラットフォームと16コア「Interlagos」プロセッサを組み合わせると4ソケット×16コア=64コアになるよ。
    • IDCによると、8ソケットのx86プラットフォーム市場は26%落ち込んでいる。
    • 2009年が不況だからだというなら、2007年や2008年の8ソケットx86プラットフォーム市場と比べると横ばい。
    • すなわち市場は成長していないんだよ。この事は結構市場にインパクトを与えられるんだよ。
    • 8ソケット64コアではメモリ搭載に必要な面積が大きくなるが、4ソケットだと低価格で小さいサイズ、低消費電力になる。
    • Bulldozerは2011年にこれを実現するからよろしくー。
  • 性能を見る限りだと、Bulldozerは一般・ビジネス向けCPUに求められる消費電力制御を持っていない様に見えるよ。現在のマルチコアユーザが乗り換える意味のある新しい特徴はないの?Bulldozerが現在ビジネスに求められている新しい消費電力削減機能を細かく説明できる?
    – Jeremy Stewart

    • 「Maranello」プラットフォーム向けの現在出荷中のOpteron 6100シリーズにBulldozerが備えている電力削減機能は既に組み込み済み。
    • 既に公式ブログには書いたけど、現在のマルチコアプロセッサの水準を上げる性能を提供するよ。
    • 私たちは動的共有及び動的リソース配分を備えた消費電力に効果的なマイクロアーキテクチャを実装しているよ。高速なクロックとパワーゲーティングを活用してね。
    • プロセッサのチップレベルのコアパワーゲーティングをサポートしているよ。
    • そのOpteron6100の新しい技術はPowerNow!やCoolCore、低電圧DDR3メモリサポートで非常に良い感じ。
    • 33%のコア数増加とより大きなキャッシュで、現在の我々の12コアプロセッサと同じ消費電力なんだよ。

—-

Nehalem EXの言い訳は苦しいな、AMDw。あとJeremy偉そうだぞ。謙虚に質問しろよ。

AMDの次世代CPU「Bulldozer」の詳細情報がHot Chip22で公開される。

概要として、「Bulldozer」と「Bobcat」はx86コアを二つの市場向けにチューニングしている。

  • 「Bulldozer」は「Sandtiger」ミドルクラスサーバ・ワークステーション向けCPUから登場する予定。
  • 「Bobcat」はノートPCやクラウドコンピューティングのクライアント機向け。

  • 「Bulldozer」コアはモジュール形式。
  • 二つの4パイプラインコアが浮動小数点演算スケジューラと二つの128bitFMACを共有する。
  • 「Bulldozer」はGlobalfoundriesの32nm SOI技術により製造される予定。

  • 二つの4パイプラインコアが浮動小数点演算スケジューラと二つの128bitFMACを共有する。
  • IntelのシングルチップHyperThreadingよりスループットが向上。

  • これは今日のデスクトップでは浮動小数点演算のコード量は非常に少なく、共有浮動小数点演算スケジューラを導入することで消費電力を抑えることが可能。またダイサイズ減少に貢献している。
  • また二つの128bitFMACは組み合わせて256bitFMACとして利用可能。
  • 「Bulldozer」はダイナミックに各コンポーネントとの接続を切り替えることで最大限のワットパフォーマンスを実現。
  • それぞれのコアは共有L2キャッシュを搭載している。

  • それぞれのモジュールはHyperTransportバスを介して様々な構成のマルチコアプロセッサを組み上げることが可能。
  • 各コアは共有L3キャッシュと接続され、統合型メモリコントローラがその先に接続されている。

  • コアが33%増加すると50%性能アップ。これは同じ消費電力の現行CPU「Magny-Cours」(Opteron6000シリーズ)と比較した場合。
  • 2011年中に提供される予定。
  • 6000シリーズのサーバ向けプロセッサは12〜16コアで6〜8モジュール構成である。
  • 4000シリーズは4〜8コアである。
  • サーバ向けチップセットは現在の市場ではG34・C32ソケットを利用可能である。これらのプロセッサは置き換えるだけで性能向上やコア数増加が可能である。
  • 重要な強化点としてメモリコントローラが大幅なメモリ帯域増加を提供することである。

  • 2番目の整数演算コアを追加するのに全体の12%の回路のみで良い。
  • そしてチップレベルでは全体のダイサイズの5%の追加で可能となる。
  • また「Bulldozer」に内蔵されたデスクトップPC向けノースブリッジより低消費電力で発達し粒度の細かいクロックゲートを実現。
  • DDR3メモリが利用可能で、またAMDの「TurboCore」テクノロジによりプロセッサをオーバクロックさせるモードを搭載している。
  • デスクトップPC向けは4〜8コアの「Bulldozer」が採用されると予想される。
  • ソケットはAM3+となり、現行のAM2やAM3ソケットでは「Bulldozer」は対応しない。
  • なおAM2+、AM3 CPUはAM3+ソケットで利用可能。

  • AMD FusionAPU「Ontario」に搭載される「Bobcat」コアと接続図

  • ノートPC向け「Bobcat」コアはデュアルx86コアにアウトオブオーダ実行、低消費電力が特徴。IntelのAtomはインオーダ型。

IntelのHyperThreadingとAMD Modulesが競合技術になるのか。また現行のAM3では「Bulldozer」コアが使えないらしいので、新たなAMDチップセットが登場するかもしれない。

あと、AMD Hot Chip ニュースサイト向けプレスキットはこちらから。

追加でAMDの公式ブログで「Bulldozer」の20の質問ラウンド1が掲載開始。

  • いろんなコードネームのチップが合って混乱しているんだけどどうなの?
    • これ読んどけ。基本はコア数だ。
    • “Interlagos” – 16-core server processor
    • “Valencia” – 8-core server processor
    • “Zambezi” – 8-core client processor
  • Intelの製品と比べ、AMDの仮想化技術の利点は?
    • コア数で簡単に比較できるよ。Opteron6100を二つ使えばコア数は24個、なんで24VMが動作できる。
    • また共有L2キャッシュもいい感じ。
  • 「Bulldozer」とFusion APU「Ontario」は同じコアなの?
    • 違う。「Bobcat」コアをベースにした違う設計チップ。
  • 「Thuban」チップのように「TurboCore」に対応するの?
    • その通り。サーバ分野で初めて「TurboCore」を導入するよ。
  • 「Bulldozer」チップはサーバ分野ではどのようなインパクトがあるの?
    • いろんな視点があるけど、まずはモジュール構造の導入が挙げられる。
    • 他には性能向上と低消費電力。
    • また仮想化技術の一層の性能向上。

バカ訳ですみません。

続きのパート2はこちらから読めます

AMD公式ブログにて次世代CPU「Bulldozer」の情報が8月24日に公開される件について

AMD The Bulldozer Blog August 2, 2010 by John Fruehe より。

8月24日のHot Chips22にて、AMDの2011年登場予定の次世代CPU「Bulldozer」のベンチマークや価格などの情報を公開するとのこと。すべての情報ではないが順次公開していく模様。8コアが一般向け、16コアがサーバ向けとのこと。John Fruehe氏は先日のxbitlabs.comで「Bulldozer」について語った方。リンク先のページ下に顔写真がある。

うわさ AMDの次世代CPU「Bulldozer」は動的パフォーマンスブースト機能はないらしい

xbitlabs.com AMD Bulldozer Microprocessors May Not Bring Dramatic Performance Boosts.AMD Expects 16-Core Microprocessors to Be 50% Faster than 12-Core Chips [08/03/2010 02:10 PM] by Anton Shilov より。

うわさ AMDの次世代CPU「Bulldozer」は動的パフォーマンスブースト機能はないらしい

AMDは12コアチップよりも16コアチップCPUが50%高速であると予測している。

アナリストと市場観測者はAMDのコードネーム「Bulldoser」CPUは現在AMD出荷しているCPUと比較して明確に性能が向上していると予測している。しかしアーキテクチャとしての視点からは素晴らしく観えるが、AMD自身は桁外れの性能向上について大きく主張していない。事実、新しい「Bulldozer」ベースのCPUの「コアあたりの性能」は現在のチップと比較してほんのわずかだけ良いだろう。

「性能面における視点からは、もし私たちの16コア「Interlagos」と現在の12コアAMD Opteron 6100シリーズプロセッサ(コードネーム「Magny Cours」)を比較すると消費者からは33%増加したコアから50%のより高い性能を見て取れるだろうと私たちは予想している。これは私たちがコアあたりの性能が正しい上向きの方向性にぴったりと合っていると評価していることを意味する。」とAMDサーバ・ワークステーション製品マーケティング取締役のJohn Frueheは説明した。

「Bulldozer」の「コアあたりの性能」が高い期待を持てないのなら、新しいチップはAMDにこれからのマイクロプロセッサが消費電力の増加や熱損失を伴わずに達成させるだろう。

去年の11月の定期アナリストデイでAMDによって提供された情報を元にすると、最初の「Bulldozer」マイクロアーキテクチャはコードネーム「Zambezi(ほぼ確実にOrochiファミリーに属している)」と呼ばれるデスクトップ・ワークステーション向けCPUチップは、マルチスレッディングテクノロジを持つ8コアのx86コアで、2つの128bit FMAC浮動小数点演算ユニット、共有L2キャッシュ、メモリコントローラ統合型共有L3キャッシュを特徴とするだろう。AMDはまたその新しいCPUは「大きな新しい電力管理の革新」を特徴とするであろうと記載している。「Bulldozer」ファミリーに属している新しいチップはまた256bit浮動小数点演算命令をサポートするAdvanced Vector Extensions(AVX – ※従来のSSEの新しいバージョン)を特徴としている。過去にAMDがデモを行なった際の模式図を元に、AMDは4コアが互いにより良く動作させるために分割されたデータキャッシュと一つの浮動小数点スケジューラ、二つの整数演算ユニットの助けを借りて劇的に改善することを目的としてる。

2010年第2四半期世界で2番目に巨大なCPU会社は最初の「Bulldozer」マイクロプロセッサを「テープアウト」した。「テープアウト」とは集積回路の露光用フォトマスクのための設計図を生産工場に送ったことを意味する。AMDが既に生産し組み立てられた「Bulldozer」プロセッサのサンプルを受け取ったか、少なくともGlobalfoundries(※AMDの半導体生産工場会社。複数の資本が参加している)から半導体ウエハースを製造したかどうかという点ははっきりとしていないが、AMDは火曜日には最初の「Bulldozer」の性能に関連した声明を発表するとしており、その時がおそらく最初のサンプルを手に取る時であろうと思われる。

—-

そろそろBulldozerの性能に関する新しい情報が出てきそうである。たのしみ。