NVIDIAのProject Denverのファーストシリコンは8コアARM、256CUDAコアのAPU?

1st Silicon with NVIDIA Project Denver is an 8-Core ARM, 256 CUDA Core APU? 7/18/2011 by: Theo Valich – Get more from this author より。

NVIDIAのProject Denverのファーストシリコンは8コアARM、256CUDAコアのAPU?

複数のニュースソースから聞いた情報によると、NVIDIAは最近コードネーム「Project Denver」のSoCである最初の「CPU」を目標とした設計を公開し展開を始めた。

私達が入手した情報は、プロジェクトデンバーCPUコアが「T40 – Tegra4 (Wayne)」に非常に似ているように見える。内部スケジュールによると、Wayneのシリコンは今後2週間以内にテープアウトする予定であり、ディベロッパーはそれらのプロトタイプシリコンを2011年12月に手に取ることができるとしている。Wayneシリコンは4つ以上のARMコアから成り立っており(NVIDIAはコアのタイプを公開しておらず、ふざけてて言うならA15かPDであろう)、64個以上のGPUコアを含む。

同じ2011年12月の間に、NVIDIAはProject Dennverをベースにしたファーストシリコンをテープアウトする予定である。それらは8コア以上のNVIDIAカスタムの64bit ARM CPUにGeForce 600クラスのGPUを組み合わせた物である。NVIDIAはCPUの開発に数多くの問題を抱え、一般的な意見としてはNVIDIAはシングルの28nm PD CPU設計と28nm Fermiベースの設計を細葉した慎重なアプローチを取るだろうと言われている。 言い換えれば、ノートPC・ローエンドデスクトップPC向け GeForce 600シリーズカード(「GeForce300」を思い出す?)にリフレッシュしたFermiベースの設計であると噂されてる。

他のニュースソースによるとこのニュースの題名のとおり、シリコンのGPU部分は「少なくとも256 CUDAコア」で、「Northern Islands」とBulldozer拡張CPUを組み合わせたAMDのTrinity APUを目標としているとのこと。VLIW4アーキテクチャとAMDのキーとなるAPUは2012年に登場する予定である。計算処理能力を拡張するため、NVIDIAは天国に登るような高い動作クロックを求めず、それぞれIPC(クロックあたりの処理可能な命令数)の向上を可能な限り高めることを求めている。まだその製品は現実的には2.0-2.5GHzでCPUやGPUが動作するだろうと予測されており、メモリーコントローラーとシリコンの残りの部分はより低い比率のクロックのまま動作すると予測されている。

AMDのAPU設計と異なり、CPUとGPUパーツはDDR3メモリの速度で動作するメモリコントローラにより接続されており、Project DenverはCPUとGPUがより緊密に通信可能な方法を模索しており、言い換えれば最も良いGPU設計は広帯域な接続により実現できるということである。NVIDIAはL1、L2、L3キャッシュの設計を従来通りでは設計せず、GPU部分がキャッシュメモリと1TB/sec以上のコネクションを持っており、噂にあったDenverコア設計と非常に良く似たアプローチをとっている。GPU部分同様に、メモリコントローラーはシリコンダイ面積をとっており、CUDAコアはCPUコアと接続されCPUは接続帯域の要求に対し優先してアクセスできる。

だけれどもNVIDIAはCPUに必要な全帯域の10-20%のみを必要としており、GPUは引き続きシステムメモリが充てられるだろう。

またノートPCやデスクトップ、サーバーのマザーボード設計が進行中で、PCI Express 3.0はメインコネクションの特徴であるとうたわれており、USB3.0やSATA 5GBpsが同時に接続される。これらの与えられた情報によると、NVIDIAは残りの全ての前線に攻撃を仕掛けるようだ。軽量ノートPC分野には低スケールTegra3と4(スマートフォン/タブレット/ネットブック)を割り当て、よりパワフルなシリコンは軽量ノートPCやデスクトップに使われ、サーバー分野にはより興味深い戦略で望むのだろう。

一方、PD CPUの1世代に、NVIDIAはパワフルなGPUを武器にブレードサーバ市場に算入することを望んでいるが、また一方でNVIDIAはTeslaのビジネスでIntelやAMDのx86コアへの依存を排除したがっている(一つのTeslaGPGPUは一つの- XeonかOpteron -が要求される)。それらが等しくx86からの脱却は確実に利益を多く見せるだろうが、一方でAMDとIntelは頭から足の先まで同じシリコンを使ったデスクトップ・ノートPCで利益を充填し楽しんでいる。

AMDの公式ブログで「Bulldozer」の20の質問パート3 懲りずにバカ訳

All of AMD Bulldozer 20 Questions, Part 3 September 13, 2010 by John Frueheより。

パート2はこちらから読めます。

AMDの公式ブログで「Bulldozer」の20の質問パート3

  • デュアルソケットでPCI Express x16 2スロット、x8 スロット、固体コンデンサもろもろついてパーツの頂点に立てるオーバークロック可能なマザーボードは出さないの?
    – David Hunt

    • 一般のシステムでは1ソケットバージョンなら可能だよ。
      2ソケットの一般向け市場は四半期毎に縮小しているんだ。デュアルコア(全部で4コア)が数年前にピークを迎えたけど、クアッドコア(4コア)CPUが根本から市場を乗っ取ってしまった。いま市場の残り少ない8コアで1ソケット市場が消えていくのが見えるだろう。去年の第4四半期には0.4%、全体の0.8%の市場にリソースを割くことは本当に難しいんだよ。
    • AMD Opteronはデュアルソケットシステムが可能だけど、君がさがしているオーバークロック可能な製品はないね。サーバ向けの顧客たちは手動でオーバークロックはしないから。彼らは確実な信頼性を求めているから。君が動作可能範囲を超えてCPUを動作させる(オーバークロッキングとはより高い周波数で動作させること)ことは可能だが、いくつかのリスクも背負わないと。
    • まず1番目に、CPUの使用可能寿命を減少させるよ。どのくらい減るかは全てのCPUで異なるから正確に言うのは難しい。だけどオーバークロックは潜在的な問題を増加させ、サーバーでは君が望まない動作をしてしまう。
      2番目に、君がオーバークロックして、君が予測しなかった2+2=5の結果が出る時もある。もしゲームをプレイしているのなら何の問題もないが、もし君がサーバーで自動システムを動作させて使うのなら現実の問題となり、ビジネス上の判断や金融情報に直接響くだろう。
    • AMD Opteronに「オーバークロック」のマーケティングは企業向けサーバ市場シェアには何の助けにもならない(やってしまうと確実に自殺行為だ)し、追求することもないだろう。
  • もし私が4ソケットBulldozerを使ってメモリにアクセスした場合、ローカルメモリへのアクセスとその他のCPUのローカルメモリアクセスとの間でNUMA(不均等メモリアクセス)アーキテクチャを採用したBulldozerでどのように、どのくらいの違いが出るのか?
    – Mikael Ronström

    • Non-Uniform Memory Access(NUMA)は各々のCPUが持っているメモリコントローラーとメモリバンク(ローカルアクセス)と共に利用可能だよ。CPUは同じシステムの他のCPUに接続しているメモリにアクセス可能(リモートアクセス)で、NUMAはそのようなアクセスを可能にするんだ。
    • かつて、4CPUシステムでは、いくつかのメモリは2ホップ離れていて、非常に大きなレイテンシを抱えていた。今日のAMD Opteron 4000と6000シリーズプラットフォームでは、HyperTransport技術により全てのリモートメモリを1ホップで充分呼び出せるよ。
    • それは私たちのメモリコントローラ強化で、まだ詳しくは話せないんだけど、私たちはローカルメモリとリモートメモリの両方でアクセス時間を減らすことができると予測しているよ。
    • HyperTransportによるアシスト機能は、6コアAMD Opteronから導入が始まり、既にメモリトラフィックの減少とリモートメモリアクセスのスピードアップを手助けしているよ。
    • 実際のメモリアクセス速度については、ローンチしたあとにね。
  • IntelのMulti-Threadingテクノロジとどのように、どれくらいのアドバンテージがあるか説明してもらえるかな?
    – Vygantas

    • 私たちは実際に、マルチスレッドを実コアに割り当てて使っているよ。Intelもまた同じだけど、彼らはHyperThreading技術をシングルコアで二つのスレッドを実行させているが、私たちはボトルネックが生じていると見ているよ。
    • HyperTthreadingの挑戦は実行パイプラインに2番目のスレッドに命令を実行させたときに性能ギャップが起きるんだよ。世界中で君が非効率的なアプリケーションを持っており、パイプラインにギャップを確認し、2番目のスレッドに実行させることができる。しかし、効率的なソフトウエアでは性能向上はほんの少しのみで、潜在的には結局本の少しか全く向上せずに終わってしまう。いくつかのアプリケーションでは実際にHyperThreadingを無効にする方がより性能が向上するため切ることを推奨しているんだよ。
    • 私たちは複数のコア、実際の物理的なコアでより大きなスケーラビリティにつなげているよ。非常に最適化されたシステムでは、各々のスレッドをそれぞれの整数演算コアに割り当てるために実行パイプラインと争わない。全てのコア群は等しく同じだからスレッドに優劣をつけることはシステムにオーバーヘッドを引き起こしてしまう。
    • 以下のようなシナリオを想定しよう。HyperThreadin機能を持つ4コアが4つ全ての物理コアでスレッドをハンドリングしたとしよう。いまあなたは5番目のスレッドを実行したい。既に動作中のコアにスレッドを割り当てると、2つのスレッドが同じ実行パイプラインを同時にシェアする必要があるためそのコアの処理スレッドは減少してしまうんだよ。または1サイクル待って、その他のコアが自由に使えるのを希望する? あなたが「ビッグコアとHyperThreadingコア」を持っている時たくさんの様々な判断をする必要があるが、AMDの世界では8コアか16コアが存在し、5番目のスレッドは単純に次の利用可能な物理コアに割り当てるだけだよ。これはより簡単でより拡張性の高いことだよね。
  • 御社のパートナーでBulldozerクラスのコアをサポートするコンパイラは何があるのか、またIntelのIntel ICCコンパイラはBulldozerのAVX命令群をサポートしているのか(あるいは以前のOpteronのようにCPUID経由で判別されないのか)?
    – Ivan

    • 私たちはBulldozerサポートを保証する全てのキーとなるコンパイラベンダーと作業しているよ。私たちはOpen64コンパイラをサポートするのにより多くの時間を割いているし、同じくらいPGI GroupGCC、そしてMicrosoftのコンパイラもサポートしているよ。
    • AVXは256bit浮動小数点演算を活用するためにはアプリケーションの再コンパイルが必要だね(それは競合相手も同じ)。
    • 私はICCコンパイラにはコメントできないけど、そのような質問について尋ねることは歓迎するよ。
  • どうか、何故二つの分割された整数演算コアがより巨大な一つの整数演算コアより良いのか説明してくれませんか? 例えば、もしそれぞれの整数演算コアに二つの論理演算ユニット(APU)と二つのアドレス生成ユニット(AGU)、16KBのL1キャッシュが存在し、もう一方には4つのAPUと4つのAGU、そして32KBのL1キャッシュが一つの整数演算コアに存在している場合はどうなるのででしょうか?理論的には、あなたはマルチスレッドプログラムでは同じ性能で、シングルスレッド性能では優れているになるようだけど。
    – Ryan

    • 私たちはそれについてたくさん尋ねられたよ。キーは、二つのより小さなコアの処理性能と競合する単一のコアはダイサイズと消費電力量が性能に比べて不釣合に大きくなってしまうことだ。Bulldozerにそれぞれのモジュールにいくつかのリソースを共有した二つのコアに対して一つの「ビッグコア」にすると酷い高値と大消費電力になってしまうだろう。
    • それは現実的に効果的に動作をさせるために私たちがしたことだ。シングルスレッドの性能については心配いらないよ。私たちは既にBulldozerのシングルスレッド性能は私たちの現在のコアアーキテクチャに比べて高いことを説明しているから。
    • 気に留めてほしいことは、私たちはイノベーションを提供し、未来に向けて進んでいるということだよ。2005年に私たちが最初のx86デュアルコアCPUを提供したとき、シングルコアのプロセッサの方が性能が高いという議論があったんだよ。
      a.) 彼らはより高いクロックを実現し、
      b.)アプリケーションソフトはマルチコアを実際には活用できないからとね。
      今その人達は何処に行ったんだい?
    • 私たちが最初の64bitのx86アーキテクチャを市場に提供しイノベーションをもたらしたとき、32bitアプリケーションがより良い性能だと言われたよ。
      彼らはその方がより速く、誰も2GB以上のメモリアクセスなんか必要無いとね。
      今その人達は何処に行ったんだい?
    • 今日のビジネスではあなたは風防から先を見通すことが可能で、そして将来やってくる技術の先に焦点を見定めるか、リアミラーから見える過去についてずっととらわれてしまうかどちらかだね。
    • ルールは今や変わっている。ちょうど彼らが過去に行なったように。AMDはイノベーションを続けていくだろう

—-

なんかカッコイーぞFrueheサン! いくつもある間違いを気がついたところだけ修正した。

AMDの公式ブログで「Bulldozer」の20の質問パート2 バカ訳すみません

AMDの公式ブログで「Bulldozer」の20の質問パート2

  • 同じモジュール内でコア同士の「プログラム可能な」同期機能はある?またもし自分のマルチスレッドアルゴリズムを互いのスレッドに近いペアを組むことで性能を上げることはできるの?
    – Edward Yang

    • うん、良い質問だ。
    • 基本的にはOSがスレッドのスケジュールを管理する。WindowsやLinuxなら効果的にBulldozerのコア間のスケジュールをこなすよ。
    • OSは最高性能か最高ワットパフォーマンスのどちらを優先させるかでコア性能をブースとさせるよ。
    • だけど違うモジュールで最高性能をだすために自分でスケジューリングできるよ。
    • 二つの整数演算コアは完全に別れており、実行パイプラインはL1キャッシュではデータ共有されない。これはソフト側で最適化する必要はないから。
    • L2キャッシュは二つの整数演算コアで共有されており、同時に実行パイプラインから読むことができるが書込はどちらか一つのみなんで注意ね。
    • ということは、二つのスレッドが共有するL2キャッシュにフィットするようなデータを自分でセットすることが可能。これで性能がより向上するだろう。
    • 忘れないでほしいのは他のコアのこと。データ共有のメリットと次の実行可能なコアにデータを送るためのメリットを天秤にかける必要があるよ。
    • 通常すぐに実行可能なスレッドの側に次のスレッドを準備しておくことが良い。
    • もしマルチスレッドアプリケーションがL2キャッシュ向けに最適化していないかL3キャッシュ向けに最適化している場合、はっきりとスレッドを分けたほうが良い。努力しない方がいいよ。そうしなくてもスケジューラが最適に実行するから。
  • Bulldozerで違うモジュールの二つのコアで実行する場合と同じモジュールで二つのスレッドを実行する場合どのくらい性能がアップするの?
    – Simon

    • Hot Chip22でプレゼンした資料を見て。CMP(Chip MultiProsessing 複数のコアチップを一つのコアに納めた単純な方法)と比較して、二つの整数演算コアでの性能は大体80%向上する。
    • けどこれはリソースを共有しているから出せる性能。
    • CMPはいくつか欠点があり、それは熱とダイサイズが大きくなること。そのため性能が消費電力により制限されてしまう。
    • 簡単に考えて、4シリンダの300馬力と6シリンダーの360馬力のエンジンではどちらが排気ガスが少ない?
    • シリンダーあたりの馬力比は、75馬力/4シリンダーと60馬力/6シリンダーとなり、4シリンダーの方がシリンダーあたりの性能が高い。
    • けどエンジン全体で見ると、4シリンダのエンジンは低い性能で高いコストになり、より排気ガスが多くなるよ。
  • 現在IntelのNehalem EXベースの8ソケット64コアサーバをIBMとHPが出しているよね。Bulldozerベースのサーバではスケーラビリティをどのように出すことができるの?
    – David Roff

    • Bulldozerは現在の「Maranello」「San Marino/Adelaide」プラットフォームに適しているね。
    • 「Maranello」は4CPUをサポートしている高性能プラットフォーム。
    • 「Maranello」プラットフォームと16コア「Interlagos」プロセッサを組み合わせると4ソケット×16コア=64コアになるよ。
    • IDCによると、8ソケットのx86プラットフォーム市場は26%落ち込んでいる。
    • 2009年が不況だからだというなら、2007年や2008年の8ソケットx86プラットフォーム市場と比べると横ばい。
    • すなわち市場は成長していないんだよ。この事は結構市場にインパクトを与えられるんだよ。
    • 8ソケット64コアではメモリ搭載に必要な面積が大きくなるが、4ソケットだと低価格で小さいサイズ、低消費電力になる。
    • Bulldozerは2011年にこれを実現するからよろしくー。
  • 性能を見る限りだと、Bulldozerは一般・ビジネス向けCPUに求められる消費電力制御を持っていない様に見えるよ。現在のマルチコアユーザが乗り換える意味のある新しい特徴はないの?Bulldozerが現在ビジネスに求められている新しい消費電力削減機能を細かく説明できる?
    – Jeremy Stewart

    • 「Maranello」プラットフォーム向けの現在出荷中のOpteron 6100シリーズにBulldozerが備えている電力削減機能は既に組み込み済み。
    • 既に公式ブログには書いたけど、現在のマルチコアプロセッサの水準を上げる性能を提供するよ。
    • 私たちは動的共有及び動的リソース配分を備えた消費電力に効果的なマイクロアーキテクチャを実装しているよ。高速なクロックとパワーゲーティングを活用してね。
    • プロセッサのチップレベルのコアパワーゲーティングをサポートしているよ。
    • そのOpteron6100の新しい技術はPowerNow!やCoolCore、低電圧DDR3メモリサポートで非常に良い感じ。
    • 33%のコア数増加とより大きなキャッシュで、現在の我々の12コアプロセッサと同じ消費電力なんだよ。

—-

Nehalem EXの言い訳は苦しいな、AMDw。あとJeremy偉そうだぞ。謙虚に質問しろよ。

IntelのSoC・サーバ関連主席研究員のDonald Newell氏をAMDのバイスプレジデント及びCTOに任命する。

xbitlabs.com AMD Appoints Ex-Intel Veteran as Server Chief Technology Officer. Ex-Intel Executive to Define AMD’s Server Roadmap [08/23/2010 06:37 AM] by Anton Shilov より。

AMDは前IntelのベテランをサーバCTOに任命する。

前のIntel幹部がAMDのサーバロードマップを決定する

by Anton Shilov

2010年8月23日

AMDは2010年8月23日月曜日にDonald Newellをヴァイスプレジデントおよびサーバビジネス部門のチーフテクノロジーオフィサー(CTO)として任命すると発表した。Donald NewelはAMDのサーバ向け製品のロードマップを決定する手助けを行ない、シニアバイスプレジデントおよびAMD製品グループのジェネラルマネージャであるRick Bergmanの部下となる。

「Don Newellはシーダーシップスキル、エンジニアリング及び設計の専門分野そして戦略の方向性を力強く結合させることとができる。私たちは幸運にも2011年ローンチを予定している私たちAMDのOpteronプロセッサである『Bulldozer』コアを出荷する準備を行う際にDon Newellを役職にそえることが出来た。』とBergman氏は述べた。

AMDのサーバCTOとして、Newell氏は現在の状況や長期のサーバ需要やトレンドを基にAMDの長期サーバーロードマップの構想及び定義付けを行う能力がある。彼は複数の世界規模のチームを率い、並行して他のAMD設計及び開発チームと設計から市場供給までの段階の流れに成功を保証する仕事を行う。

彼の16年間のIntelでの仕事の間、Newellはクラウドコンピューティングからハンドヘルドデバイスに及ぶ広大な範囲のSoCおよびサーバプラットフォームアーキテクチャ革新を率いてきた。NewellはまたI/Oアクセラレーション技術(IOAT)を初期の調査から製品の一片までを着手から駆動させるまで行ない、ヘテロジニアスコンピューティングの詳細なアーキテクチャを開発し、PC業界で最初のデジタルTV受信機を提供する能力がある。彼は彼のチームと共にキャッシュQoSやネットワークプロトコル制御のような先進的な論文を発表したことがある。Newell氏は60以上もの論文誌のピアレビュー(※査読)を行なっており、インターネット上での動画転送について記述されているIETF RFC2429の共同執筆者でもある。Intelに所属するのに先立って、彼はDatanex Softwareの最初のソフトウエアエンジニアであり、最近までSequent Computersに所属していた。Newellはオレゴン州率大学の科学学士を受け取った。

20以上の特許を取得している際立ったエンジニアであるNewell氏はAMDの所属する前にIntelの研究所でSoC及びデータセンターネットワークアーキテクチャグループのシニア主席エンジニアに席を置いていた。

—-

IntelといいnVidiaといい流出した人材の受け皿だな、AMDは。これでOpteron関連の出荷問題などを解決に導ければ経営も安定していくだろう。

AMDのサーバ向けCPU市場シェアが下落する : 最新のOpteron6000シリーズ出荷遅延により

The Inquire Intel grabs some of AMD’s server share It wasn’t using that, it seems By Ed Berridge Thu Aug 19 2010, 10:14 より。

概要として、

  • IDCによると、サーバ市場におけるシェア率についてIntelはAMDからいくらか奪還した。
  • すべての原因は、AMDが最新のOpteron6000シリーズの出荷速度が遅いということと、Intelのチップの方がearly adopters(※マーケティング用語。初期採用者)に先に製品を届けられたから。
  • Intelは2010年第2四半期で93.5%のサーバプロセッサ市場のシェアを獲得し、去年の同時期の89.9%に比べて上昇した。
  • それに応じてAMDの市場シェアは10.1%から6.5%に滑り落ちた。
  • AMDが第1四半期から第2四半期にかけて市場シェアを失った理由のほとんどはAMDの新しいOpteron6000シリーズを素早く出荷できなかったことである。
  • IDCはAMDがそれらの出荷問題が過去にも起きているという。
  • AMDはサーバ、デスクトップ、モバイル向けを含む巨大なx86アーキテクチャプロセッサ市場をつかんでいるが、市場全体でのプロセッサ出荷数はは2010年の第1四半期から第2四半期にかけて18.8%から19.0%に上昇した。
  • あなたはほんの少しだけAMDのノートPC向けチップ出荷により2010年第1四半期の12.1%から第2四半期の13.7%への上昇分があると見て取れるだろう。その間Intelの市場シェアは87.8%から86.1%へ下落した。
  • 最後にIDCはIntelはデスクトップ向けチップの市場シェアが第1四半期から0.5%上昇し72.2%となったと発表した。

—-

いつものAMD。どうしてもIntelに生産設備規模に対抗できないため商機を逃すというK6-IIIなど過去にもあった状況。CPU市場全体ではAMDが少しだけシェアを増加させたニュースが先日流れていたが、ノートPC向けでシェアをとったらサーバ向けでシェアを落とすというシーソーゲームのようだ。まさにIntelにとって生かさず殺さず。

AMD Developer Inside Trackエピソード12 AMD SimNowの導入方法

All of AMD ADIT Episode #12 Introduction to AMD SimNow August 18 2010 by Sharon Troia より。

AMD Developer Inside Trackエピソード12 AMD SimNowの導入方法

こんなソフトウエアがあるとはしらなんだ。

AMDの新しいCPUではXOPやAVXに対応しているが、そのCPUやマザーボードを開発する際に必要なシミュレータらしい。名前はAMD SimNow™。

  • Bit slice DES(暗号化アルゴリズムの一種で、演算時最も時間のかかる部分を最適化するためビット入出力を減らして処理時間を削減する手法)に有効なXOP命令の導入
  • AVX命令群のシミュレート

動作環境は下記の通り。

  • OS Distribution
    • Any of the following 64-Bit Linux distributions. SuSE 9 Pro and newer
    • RedHat 64Bit Enterprise 3 and above
    • Fedora Core 2 and newer.
    • SuSE 9.1 or newer for AMD64 (recommended)
    • Windows® XP Professional x64 Edition OR Windows Server 2003 x64 Edition.
  • Memory
    • Approx. 64MB of memory, plus Approx. 150 MB of memory for each simulated processor, plus the amount of simulated RAM
  • Processor
    • AMD Athlon™ 64 or AMD Opteron™.

ダウンロードはAMD SimNow™ Simulatorのページより。

AMD公式ブログにて次世代CPU「Bulldozer」の情報が8月24日に公開される件について

AMD The Bulldozer Blog August 2, 2010 by John Fruehe より。

8月24日のHot Chips22にて、AMDの2011年登場予定の次世代CPU「Bulldozer」のベンチマークや価格などの情報を公開するとのこと。すべての情報ではないが順次公開していく模様。8コアが一般向け、16コアがサーバ向けとのこと。John Fruehe氏は先日のxbitlabs.comで「Bulldozer」について語った方。リンク先のページ下に顔写真がある。

うわさ AMDの次世代CPU「Bulldozer」は動的パフォーマンスブースト機能はないらしい

xbitlabs.com AMD Bulldozer Microprocessors May Not Bring Dramatic Performance Boosts.AMD Expects 16-Core Microprocessors to Be 50% Faster than 12-Core Chips [08/03/2010 02:10 PM] by Anton Shilov より。

うわさ AMDの次世代CPU「Bulldozer」は動的パフォーマンスブースト機能はないらしい

AMDは12コアチップよりも16コアチップCPUが50%高速であると予測している。

アナリストと市場観測者はAMDのコードネーム「Bulldoser」CPUは現在AMD出荷しているCPUと比較して明確に性能が向上していると予測している。しかしアーキテクチャとしての視点からは素晴らしく観えるが、AMD自身は桁外れの性能向上について大きく主張していない。事実、新しい「Bulldozer」ベースのCPUの「コアあたりの性能」は現在のチップと比較してほんのわずかだけ良いだろう。

「性能面における視点からは、もし私たちの16コア「Interlagos」と現在の12コアAMD Opteron 6100シリーズプロセッサ(コードネーム「Magny Cours」)を比較すると消費者からは33%増加したコアから50%のより高い性能を見て取れるだろうと私たちは予想している。これは私たちがコアあたりの性能が正しい上向きの方向性にぴったりと合っていると評価していることを意味する。」とAMDサーバ・ワークステーション製品マーケティング取締役のJohn Frueheは説明した。

「Bulldozer」の「コアあたりの性能」が高い期待を持てないのなら、新しいチップはAMDにこれからのマイクロプロセッサが消費電力の増加や熱損失を伴わずに達成させるだろう。

去年の11月の定期アナリストデイでAMDによって提供された情報を元にすると、最初の「Bulldozer」マイクロアーキテクチャはコードネーム「Zambezi(ほぼ確実にOrochiファミリーに属している)」と呼ばれるデスクトップ・ワークステーション向けCPUチップは、マルチスレッディングテクノロジを持つ8コアのx86コアで、2つの128bit FMAC浮動小数点演算ユニット、共有L2キャッシュ、メモリコントローラ統合型共有L3キャッシュを特徴とするだろう。AMDはまたその新しいCPUは「大きな新しい電力管理の革新」を特徴とするであろうと記載している。「Bulldozer」ファミリーに属している新しいチップはまた256bit浮動小数点演算命令をサポートするAdvanced Vector Extensions(AVX – ※従来のSSEの新しいバージョン)を特徴としている。過去にAMDがデモを行なった際の模式図を元に、AMDは4コアが互いにより良く動作させるために分割されたデータキャッシュと一つの浮動小数点スケジューラ、二つの整数演算ユニットの助けを借りて劇的に改善することを目的としてる。

2010年第2四半期世界で2番目に巨大なCPU会社は最初の「Bulldozer」マイクロプロセッサを「テープアウト」した。「テープアウト」とは集積回路の露光用フォトマスクのための設計図を生産工場に送ったことを意味する。AMDが既に生産し組み立てられた「Bulldozer」プロセッサのサンプルを受け取ったか、少なくともGlobalfoundries(※AMDの半導体生産工場会社。複数の資本が参加している)から半導体ウエハースを製造したかどうかという点ははっきりとしていないが、AMDは火曜日には最初の「Bulldozer」の性能に関連した声明を発表するとしており、その時がおそらく最初のサンプルを手に取る時であろうと思われる。

—-

そろそろBulldozerの性能に関する新しい情報が出てきそうである。たのしみ。

Linuxカーネル2.6.35がリリースされる。ネットワーク負荷軽減機構やH.264ハードウェアデコードサポート

sourceforge.jp Linuxカーネル2.6.35リリース、ネットワーク負荷軽減機構やH.264ハードウェアデコードなどをサポート

linuxfoundation.jp Linux Weather Forecast より。

新しいLinux カーネル 2.6.35の新機能は主に下記の通り。

  • マルチCPU環境でネットワークスループットを向上させる「Receive Packet Steering(RPS)」および「Receive Flow Steering(RFS)」サポート。なお性能がアップするのは8コア以上からなので個人向けへの影響は今後だろう。
    http://lwn.net/Articles/328339/によると下記のとおり性能がアップ。

    • tg3 on 8 core Intel
      Without RPS: 90K tps at 34% CPU
      With RPS: 285K tps at 70% CPU
    • e1000 on 8 core Intel
      Without RPS: 90K tps at 34% CPU
      With RPS: 292K tps at 66% CPU
    • foredeth on 16 core AMD
      Without RPS: 117K tps at 10% CPU
      With RPS: 327K tps at 29% CPU
    • bnx2x on 16 core AMD
      Single queue without RPS: 139K tps at 17% CPU
      Single queue with RPS: 352K tps at 30% CPU
      Multi queue (1 queues per CPU) 204K tps at 12% CPU
      _
  • SGI開発のカーネルデバッグツール「KDB」の追加
  • メモリの断片化を軽減する「Memory compaction」の追加。使用中のメモリページを連続した大きなページに移動することでメモリ使用効率の改善を図るというもの。近年の大容量メモリ搭載システム向け。
  • カーネルモードセットドライバの改善。IntelのG45チップセットなどが備えるH.264およびVC-1デコード機能、Radeonドライバの各種改良など。
  • Btrfsでファイルシステムのキャッシュを通さずに直接I/Oを行う「Direct I/O」をサポート
  • xfsでI/Oが大量に発生した際の遅延ロギングのサポート
  • perfコマンドの改良
  • multiple multicast route tablesのサポート
  • L2TP Version 3(RFC 3931)のサポート
  • ST-Ericssonのモデムで利用されているCommunication CPU to Application CPU Interface(CAIF)プロトコルのサポート
  • ACPI Platform Error Interfaceのサポート(先日のUbuntu Linux 10.10 Maverick Meeakatのニュース参照)
  • Linux Software RAIDのRAID0⇔RAID10,RAID4,RAID5の引継ぎが可能になった。ただしRAID6については記述なし。
  • AMDの新CPU PhenomII X6 1090Tなどで採用された動作コアを減らす代わりに動作クロックを上げる「Turbo CORE」対応のCPUでpowernow-k8の「Turbo Boost」制御が可能となる。

2010年8月2日現在Ubuntu Linux kernel-ppa mainlineには2010年7月31日ビルドバージョンがある。

Linux kernel Changelog 2.6.35の解説は下記のページを参照。

http://kernelnewbies.org/Linux_2_6_35

AMDの次世代CPU「Bulldozer」がテープアウト 2010年第2四半期にサンプル出荷

xbit AMD Tapes Out First “Bulldozer” Microprocessors. AMD to Sample Bulldozer in 2H 2010 より。

AMDは次世代CPUである「Bulldozer」のテープアウト(半導体の設計図を完成させ半導体露光用のマスクを生産工場に送ること)を行なった。一般向けには2011年の早い段階に供給を開始したいとのこと。

AMDのチーフエグゼクティブオフィサーのダーク・マイヤーは、

「今年の第2四半期で32nmプロセスのBulldozerをテープアウトした。Bulldozerはサーバ及びデスクトップ向けのCPUで2011年ローンチに向けて走り始めた。これらはAMDプラットフォームに確実な性能改善を提供するだろう」

と金融関連の会合で話した。

BulldozerはGrobalfoundriesで生産される。既にBulldozerベースの12・16コアの「Interlagos」は「Opteron 6000」として出荷済み。

当初Bulldozerは「Zambezi(OrochiデスクトップCPUファミリー)」というコードネームで呼ばれていた。主な特徴は二つの128bitFMAC浮動小数点演算ユニット、共有L2キャッシュ、メモリコントローラに統合された共有L3キャッシュ、また二つの整数演算スケジューラ、一つの浮動小数点演算スケジューラと4つの各々分割されたデータキャッシュなどであり、マルチスレッド技術の劇的な向上を目指している。

AMDは一般向けのデスクトップ分野では整数演算はこれ以上の性能は求められていないがゲームや動画再生・エンコードなどで浮動小数点演算性能が必要であり、サーバ分野ではマルチプロセス・スレッドによる整数演算性能の向上と省電力が求められており相反する目的を実現するアーキテクチャを目指しているとのこと。