NVIDIAのProject Denverのファーストシリコンは8コアARM、256CUDAコアのAPU?

1st Silicon with NVIDIA Project Denver is an 8-Core ARM, 256 CUDA Core APU? 7/18/2011 by: Theo Valich – Get more from this author より。

NVIDIAのProject Denverのファーストシリコンは8コアARM、256CUDAコアのAPU?

複数のニュースソースから聞いた情報によると、NVIDIAは最近コードネーム「Project Denver」のSoCである最初の「CPU」を目標とした設計を公開し展開を始めた。

私達が入手した情報は、プロジェクトデンバーCPUコアが「T40 – Tegra4 (Wayne)」に非常に似ているように見える。内部スケジュールによると、Wayneのシリコンは今後2週間以内にテープアウトする予定であり、ディベロッパーはそれらのプロトタイプシリコンを2011年12月に手に取ることができるとしている。Wayneシリコンは4つ以上のARMコアから成り立っており(NVIDIAはコアのタイプを公開しておらず、ふざけてて言うならA15かPDであろう)、64個以上のGPUコアを含む。

同じ2011年12月の間に、NVIDIAはProject Dennverをベースにしたファーストシリコンをテープアウトする予定である。それらは8コア以上のNVIDIAカスタムの64bit ARM CPUにGeForce 600クラスのGPUを組み合わせた物である。NVIDIAはCPUの開発に数多くの問題を抱え、一般的な意見としてはNVIDIAはシングルの28nm PD CPU設計と28nm Fermiベースの設計を細葉した慎重なアプローチを取るだろうと言われている。 言い換えれば、ノートPC・ローエンドデスクトップPC向け GeForce 600シリーズカード(「GeForce300」を思い出す?)にリフレッシュしたFermiベースの設計であると噂されてる。

他のニュースソースによるとこのニュースの題名のとおり、シリコンのGPU部分は「少なくとも256 CUDAコア」で、「Northern Islands」とBulldozer拡張CPUを組み合わせたAMDのTrinity APUを目標としているとのこと。VLIW4アーキテクチャとAMDのキーとなるAPUは2012年に登場する予定である。計算処理能力を拡張するため、NVIDIAは天国に登るような高い動作クロックを求めず、それぞれIPC(クロックあたりの処理可能な命令数)の向上を可能な限り高めることを求めている。まだその製品は現実的には2.0-2.5GHzでCPUやGPUが動作するだろうと予測されており、メモリーコントローラーとシリコンの残りの部分はより低い比率のクロックのまま動作すると予測されている。

AMDのAPU設計と異なり、CPUとGPUパーツはDDR3メモリの速度で動作するメモリコントローラにより接続されており、Project DenverはCPUとGPUがより緊密に通信可能な方法を模索しており、言い換えれば最も良いGPU設計は広帯域な接続により実現できるということである。NVIDIAはL1、L2、L3キャッシュの設計を従来通りでは設計せず、GPU部分がキャッシュメモリと1TB/sec以上のコネクションを持っており、噂にあったDenverコア設計と非常に良く似たアプローチをとっている。GPU部分同様に、メモリコントローラーはシリコンダイ面積をとっており、CUDAコアはCPUコアと接続されCPUは接続帯域の要求に対し優先してアクセスできる。

だけれどもNVIDIAはCPUに必要な全帯域の10-20%のみを必要としており、GPUは引き続きシステムメモリが充てられるだろう。

またノートPCやデスクトップ、サーバーのマザーボード設計が進行中で、PCI Express 3.0はメインコネクションの特徴であるとうたわれており、USB3.0やSATA 5GBpsが同時に接続される。これらの与えられた情報によると、NVIDIAは残りの全ての前線に攻撃を仕掛けるようだ。軽量ノートPC分野には低スケールTegra3と4(スマートフォン/タブレット/ネットブック)を割り当て、よりパワフルなシリコンは軽量ノートPCやデスクトップに使われ、サーバー分野にはより興味深い戦略で望むのだろう。

一方、PD CPUの1世代に、NVIDIAはパワフルなGPUを武器にブレードサーバ市場に算入することを望んでいるが、また一方でNVIDIAはTeslaのビジネスでIntelやAMDのx86コアへの依存を排除したがっている(一つのTeslaGPGPUは一つの- XeonかOpteron -が要求される)。それらが等しくx86からの脱却は確実に利益を多く見せるだろうが、一方でAMDとIntelは頭から足の先まで同じシリコンを使ったデスクトップ・ノートPCで利益を充填し楽しんでいる。

広告

nVidiaはCUDAのx86アーキテクチャへの最適化にほとんど興味がない – アナリスト談

xbitlabs.com Nvidia Hardly Interested in Optimal Performance of CUDA on x86 Processors – Analyst. Despite CUDA x86 Cross-Compiler, Life of Programmers Will Not Get Easier [09/28/2010 07:49 PM] by Anton Shilov より。

nVidiaはCUDAのx86アーキテクチャへの最適化にほとんど興味がない – アナリスト談

CUDAのx86向けクロスコンパイラに反して、プログラマの生活はより良くはならないだろう。
Anton Shilov
2010年9月28日

nVidiaとPortland Groupは先週nVidia CUDAアーキテクチャからx86へ、又は逆にx86からCUDAへソフトウエアを開発することができる特別なコンパイラを登場させた。これはソフトウエア開発者が彼らのプログラムに広く互換性を保証し、高並列GPUアーキテクチャを活用できることを提案している。だけれども、ソフトウエアメーカの生活はより良くなることはないだろうと、Jon Peddie ResearchのAlex Herreraは語った。

異なるアプリケーションのため、これらにはスーパーコンピュータ分野も含まれるが、より高い性能を照らす光明があるにもかかわらずATI RadeonやnVidia Geforceのようなグラフィクスプロセッサのために作り直されることはない多くの理由がある。主な理由の一つは、これまでも使われているレガシーなコードがあり、既に業務で使用されているためほとんどど捨てることができない。コンパイラはPGIとnVidiaが共同でソフトウエア開発者にCUDAベースのソフトウエアをx86プラットフォームにアプローチすることでテストしてもらいたがっており、信頼度を測ってもらいたがっている。それにもかかわらず、十分に安定して動作しているが、CUDAベースのソフトウエアのx86アーキテクチャでの性能はほとんど最適化されていない、とHerrera氏は主張している。

GPUベースのnVidia PhysXがそうであるようにCUDAもまたSSE2等のSIMDインストラクションをサポートしていない。新しいコンパイラはAMD BulldozerやIntel Sandy Bridgeマイクロプロセッサで使われる予定のAVXのようなものもサポートしないだろう。その結果、アプリケーションソフトウエアはx86プラットフォームでは最高性能を発揮できないだろ。

「x86で動作するCUDAはCUDAを使用しないでx86アーキテクチャに最適化されたアプリケーションソフトより遅くなるだろう。そしてx86で動作するCUDAアプリケーションやFermiで動作するアプリケーションを動作させる開発者は、最初に簡便に最適化できるCUDA無しのx86プラットフォームのほうが他のCUDAベースのアプリケーションよりも速く動作するのを目撃するだろう。より大きな性能向上によるベンチマーク数値はnVidiaが多くの浮動小数点演算を多用するアプリケーションソフトウエアでCPUよりもGPUのほうがより速いと宣伝する目的で使用されるだろう。」とアナリストは語った。

最後に、特定の目的および一般向け商用ソフトウエアの設計者は異なるハードウエアのために異なるコードを実装する必要が出てくるだろうし、いくつかは既に行われている。


開発側の負担が大きくなるだけで誰も得をしないということだな、nVidiaのCUDAは。あくまでも宣伝用でしか無いと。

うわさ AMDの次世代CPU「Bulldozer」向けチップセットAMD 900シリーズの仕様が登場 – IOMMUは標準機能

xbitlabs.com AMD to Introduce Bulldozer-Compatible Core-Logic Sets in Q2 2011.AMD 900-Series Chipsets to Support Bulldozer Processors, IOMMU Functionality [09/24/2010 03:28 PM] by Anton Shilov より。

AMDは「Bulldozer」互換コア チップセットを2011年第2四半期に登場させる

AMD 900シリーズチップセットはBulldozerプロセッサ及びIOMMU機能をサポート

Anton Shilov
2010年9月24日

AMDは「Bulldozer」マイクロアーキテクチャとI/Oメモリマネージメントユニット(IOMMU)を特徴とした登場予定のコードネーム「Zambezi」プロセッサ向けの新900シリーズチップセットを登場させる予定である。新たに誕生するチップセットはAMDの「Scorpius」ハイエンドユーザデスクトップPC向けの一部である。

AMD 800シリーズと900シリーズコアロジックチップの間の違いはいくつかの小さな違いがあるだけであり、新しい「Scorpius」プラットフォーム向けの主な二つの特徴は、新しい「Bulldozer」アーキテクチャのサポートとIOMMUサポートであり、新しく番号がふられたAMDのデスクトップPC向けプラットフォームは強豪相手のIntelとの違いを明確にするためであるとAMDの計画について近い人物は語っている。

伝統的なMMUのように、マイクロプロセッサの仮想アドレスと物理アドレスを変換するIOMMUは見かけ上のデバイスの仮想アドレスを物理アドレスに割り当てる。IOMMUはI/O仮想化技術を安全で拡張可能な高性能なソリューションとしてクライアントPCおよびサーバに提供する。IOMMUがサーバ及び仮想化環境プラットフォームに活用されるのは明確であり、デスクトップPC向けの主な活用方法はヘテロジニアスコンピューティングの性能改善と観るのが適切であろう。

この点は何の強固なガイダンスはないのだが、全てのマザーボードがAMD 900シリーズチップセットはAM3+ソケットを特徴としコードネーム「Zambezi」デスクトップ向けプロセッサが現在のAM3チップをサポートするだろうという点はかなりあり得る話である。そのメインボードはAM3+およびIOMMUを超えた意味のある改善をサポートするだろうし、実際新チップセットは新しいクロックスピードジェネレータ及び「Zambezi」チップはTurbo Core 2.0テクノロジをサポートするだろう。その技術はオーバークロッカー向けの新しいオプションをいくつか可能にするだろう。

それでもAMDは2011年第2四半期に900シリーズチップセットの出荷を開始する計画であり、32nmプロセスで製造される「Zambezi」デスクトップPC向けマイクロプロセッサが出荷可能になるまでは判らない。

AMD 900シリーズチップセットはわずかに異なる3種類のノースブリッジが存在する。

  • AMD 990FX 2つのPCIe 2.0 x16スロット(4つのPCIe 2.0 x8としても動作),6つのPCIe 2.0 x1スロット,一つのPCIe 2.0 x4スロットからなり、SB950 I/Oコントローラと対で使用する。
  • AMD 990X 一つのPCIe 2.0 x16スロット(2つのPCIe 2.0 x8としても動作),6つのPCIe 2.0 x1スロット
  • AMD 970 一つのPCIe 2.0 x16スロットからなり、SB950 I/Oコントローラと対で使用する。

AMD 900シリーズのサウスブリッジは下記の機能をサポートする。

  • AMD SB950 4つのPCIe 2.0 x1スロット, 14個のUSB 2.0コントローラ, PCIバス, 6個のRAID0/1/5/10をサポートしたSATA 6.0GBpsコネクタ
  • AMD SB920 2つのPCIe 2.0 x1スロット, 14個のUSB 2.0コントローラ, PCIバス, 6個のRAID0/1/10をサポートしたSATA 6.0GBpsコネクタ

なおAMDからはこのニュースについてコメントしていない。

—-

IOMMUの990Xに期待。890FXはオンボードグラフィクス機能が無いから家庭内サーバには消費電力的に避けたい。Intelと違いPCIバスをまだサポートしてるが、USB3.0のチップセット内蔵は見送られたようだな。

AMDの公式ブログで「Bulldozer」の20の質問パート3 懲りずにバカ訳

All of AMD Bulldozer 20 Questions, Part 3 September 13, 2010 by John Frueheより。

パート2はこちらから読めます。

AMDの公式ブログで「Bulldozer」の20の質問パート3

  • デュアルソケットでPCI Express x16 2スロット、x8 スロット、固体コンデンサもろもろついてパーツの頂点に立てるオーバークロック可能なマザーボードは出さないの?
    – David Hunt

    • 一般のシステムでは1ソケットバージョンなら可能だよ。
      2ソケットの一般向け市場は四半期毎に縮小しているんだ。デュアルコア(全部で4コア)が数年前にピークを迎えたけど、クアッドコア(4コア)CPUが根本から市場を乗っ取ってしまった。いま市場の残り少ない8コアで1ソケット市場が消えていくのが見えるだろう。去年の第4四半期には0.4%、全体の0.8%の市場にリソースを割くことは本当に難しいんだよ。
    • AMD Opteronはデュアルソケットシステムが可能だけど、君がさがしているオーバークロック可能な製品はないね。サーバ向けの顧客たちは手動でオーバークロックはしないから。彼らは確実な信頼性を求めているから。君が動作可能範囲を超えてCPUを動作させる(オーバークロッキングとはより高い周波数で動作させること)ことは可能だが、いくつかのリスクも背負わないと。
    • まず1番目に、CPUの使用可能寿命を減少させるよ。どのくらい減るかは全てのCPUで異なるから正確に言うのは難しい。だけどオーバークロックは潜在的な問題を増加させ、サーバーでは君が望まない動作をしてしまう。
      2番目に、君がオーバークロックして、君が予測しなかった2+2=5の結果が出る時もある。もしゲームをプレイしているのなら何の問題もないが、もし君がサーバーで自動システムを動作させて使うのなら現実の問題となり、ビジネス上の判断や金融情報に直接響くだろう。
    • AMD Opteronに「オーバークロック」のマーケティングは企業向けサーバ市場シェアには何の助けにもならない(やってしまうと確実に自殺行為だ)し、追求することもないだろう。
  • もし私が4ソケットBulldozerを使ってメモリにアクセスした場合、ローカルメモリへのアクセスとその他のCPUのローカルメモリアクセスとの間でNUMA(不均等メモリアクセス)アーキテクチャを採用したBulldozerでどのように、どのくらいの違いが出るのか?
    – Mikael Ronström

    • Non-Uniform Memory Access(NUMA)は各々のCPUが持っているメモリコントローラーとメモリバンク(ローカルアクセス)と共に利用可能だよ。CPUは同じシステムの他のCPUに接続しているメモリにアクセス可能(リモートアクセス)で、NUMAはそのようなアクセスを可能にするんだ。
    • かつて、4CPUシステムでは、いくつかのメモリは2ホップ離れていて、非常に大きなレイテンシを抱えていた。今日のAMD Opteron 4000と6000シリーズプラットフォームでは、HyperTransport技術により全てのリモートメモリを1ホップで充分呼び出せるよ。
    • それは私たちのメモリコントローラ強化で、まだ詳しくは話せないんだけど、私たちはローカルメモリとリモートメモリの両方でアクセス時間を減らすことができると予測しているよ。
    • HyperTransportによるアシスト機能は、6コアAMD Opteronから導入が始まり、既にメモリトラフィックの減少とリモートメモリアクセスのスピードアップを手助けしているよ。
    • 実際のメモリアクセス速度については、ローンチしたあとにね。
  • IntelのMulti-Threadingテクノロジとどのように、どれくらいのアドバンテージがあるか説明してもらえるかな?
    – Vygantas

    • 私たちは実際に、マルチスレッドを実コアに割り当てて使っているよ。Intelもまた同じだけど、彼らはHyperThreading技術をシングルコアで二つのスレッドを実行させているが、私たちはボトルネックが生じていると見ているよ。
    • HyperTthreadingの挑戦は実行パイプラインに2番目のスレッドに命令を実行させたときに性能ギャップが起きるんだよ。世界中で君が非効率的なアプリケーションを持っており、パイプラインにギャップを確認し、2番目のスレッドに実行させることができる。しかし、効率的なソフトウエアでは性能向上はほんの少しのみで、潜在的には結局本の少しか全く向上せずに終わってしまう。いくつかのアプリケーションでは実際にHyperThreadingを無効にする方がより性能が向上するため切ることを推奨しているんだよ。
    • 私たちは複数のコア、実際の物理的なコアでより大きなスケーラビリティにつなげているよ。非常に最適化されたシステムでは、各々のスレッドをそれぞれの整数演算コアに割り当てるために実行パイプラインと争わない。全てのコア群は等しく同じだからスレッドに優劣をつけることはシステムにオーバーヘッドを引き起こしてしまう。
    • 以下のようなシナリオを想定しよう。HyperThreadin機能を持つ4コアが4つ全ての物理コアでスレッドをハンドリングしたとしよう。いまあなたは5番目のスレッドを実行したい。既に動作中のコアにスレッドを割り当てると、2つのスレッドが同じ実行パイプラインを同時にシェアする必要があるためそのコアの処理スレッドは減少してしまうんだよ。または1サイクル待って、その他のコアが自由に使えるのを希望する? あなたが「ビッグコアとHyperThreadingコア」を持っている時たくさんの様々な判断をする必要があるが、AMDの世界では8コアか16コアが存在し、5番目のスレッドは単純に次の利用可能な物理コアに割り当てるだけだよ。これはより簡単でより拡張性の高いことだよね。
  • 御社のパートナーでBulldozerクラスのコアをサポートするコンパイラは何があるのか、またIntelのIntel ICCコンパイラはBulldozerのAVX命令群をサポートしているのか(あるいは以前のOpteronのようにCPUID経由で判別されないのか)?
    – Ivan

    • 私たちはBulldozerサポートを保証する全てのキーとなるコンパイラベンダーと作業しているよ。私たちはOpen64コンパイラをサポートするのにより多くの時間を割いているし、同じくらいPGI GroupGCC、そしてMicrosoftのコンパイラもサポートしているよ。
    • AVXは256bit浮動小数点演算を活用するためにはアプリケーションの再コンパイルが必要だね(それは競合相手も同じ)。
    • 私はICCコンパイラにはコメントできないけど、そのような質問について尋ねることは歓迎するよ。
  • どうか、何故二つの分割された整数演算コアがより巨大な一つの整数演算コアより良いのか説明してくれませんか? 例えば、もしそれぞれの整数演算コアに二つの論理演算ユニット(APU)と二つのアドレス生成ユニット(AGU)、16KBのL1キャッシュが存在し、もう一方には4つのAPUと4つのAGU、そして32KBのL1キャッシュが一つの整数演算コアに存在している場合はどうなるのででしょうか?理論的には、あなたはマルチスレッドプログラムでは同じ性能で、シングルスレッド性能では優れているになるようだけど。
    – Ryan

    • 私たちはそれについてたくさん尋ねられたよ。キーは、二つのより小さなコアの処理性能と競合する単一のコアはダイサイズと消費電力量が性能に比べて不釣合に大きくなってしまうことだ。Bulldozerにそれぞれのモジュールにいくつかのリソースを共有した二つのコアに対して一つの「ビッグコア」にすると酷い高値と大消費電力になってしまうだろう。
    • それは現実的に効果的に動作をさせるために私たちがしたことだ。シングルスレッドの性能については心配いらないよ。私たちは既にBulldozerのシングルスレッド性能は私たちの現在のコアアーキテクチャに比べて高いことを説明しているから。
    • 気に留めてほしいことは、私たちはイノベーションを提供し、未来に向けて進んでいるということだよ。2005年に私たちが最初のx86デュアルコアCPUを提供したとき、シングルコアのプロセッサの方が性能が高いという議論があったんだよ。
      a.) 彼らはより高いクロックを実現し、
      b.)アプリケーションソフトはマルチコアを実際には活用できないからとね。
      今その人達は何処に行ったんだい?
    • 私たちが最初の64bitのx86アーキテクチャを市場に提供しイノベーションをもたらしたとき、32bitアプリケーションがより良い性能だと言われたよ。
      彼らはその方がより速く、誰も2GB以上のメモリアクセスなんか必要無いとね。
      今その人達は何処に行ったんだい?
    • 今日のビジネスではあなたは風防から先を見通すことが可能で、そして将来やってくる技術の先に焦点を見定めるか、リアミラーから見える過去についてずっととらわれてしまうかどちらかだね。
    • ルールは今や変わっている。ちょうど彼らが過去に行なったように。AMDはイノベーションを続けていくだろう

—-

なんかカッコイーぞFrueheサン! いくつもある間違いを気がついたところだけ修正した。

AMDの「Zacate」プラットフォームのベンチマークは、Intel Core i5 GPUの2倍以上速い 更新 2010年9月15日

AMD Benchmarks Zacate APU, 2x Faster GPU Performance than Core i5 by Anand Lal Shimpi on 9/13/2010 11:06:00 PM より。

AMDの「Zacate」プラットフォームのベンチマークは、Intel Core i5 GPUの2倍以上速い

By Anand Lai Shimpi
2010年9月13日

AMDはIntelのIDFの間、身内だけのミーティングを開催し、今年も例外ではない。私はAMDのサーバやデスクトップ及び間近に迫るモバイル向けFusionローンチについていくつかを聞いた。私たちは詳細を聞く前にAMDの3つの新しいマイクロプロセッサについて聞いた。「Bulldozer」はハイエンドデスクトップ及びサーバ市場に2011年中(参考として第4四半期)に投入される。「Llano」は2011年のダイ2四半期の終り頃登場し、32nmプロセスのPhenomIIベースのマルチコアとAMDのDirectX11にしっかり対応したGPUとペアで登場する予定である。私たちが最も興奮したことは、2010年第4四半期に出荷される予定のメインストリームノートPC向け「Zacate」(TDP 18W)および「Ontario」(TDP 9W)である。

二つのAPUは低消費電力「Bobcat」コアにAMDのDirectX11 GPUと一緒に提供される予定である。AMDは公式にはGPU側がいくつのコアと組み合わされているか公表していないが、二つのダイはTSMCの40nmプロセスにより生産される予定である。そのパッケージはとんでもなくコンパクトである。

ダイサイズが非常に小さい。私たちが見るに74mm^2以下ではないか。チップの裏側は、あまり多くないボール数を見ることができる。

このシンプルなパッケージは可能な限り簡単に製造できるよう設計されている。パッケージの少ないボール数はこのパッケージがシングルチャネル 64bit DDR3メモリインターフェースであると暗に示している。だけれどもAMDの9W「Ontario」は明確にネットブック業界のIntel ATOMの後釜を狙っている(ATOMのインオーダ型と違い「Bobcat」のアウトオブオーダ型アーキテクチャは性能向上の成功を約束する)。「Zatate」は500ドル前後のメインストリームノートPC向け市場を目指している。AMDの提供したポイントは、Intel Core i5ノートブックと「Zacate」テストプラットフォームでゲーム「City of Heroes」を同じセッティング(1024×768 low quality)で動作させていた。

Intel Core 5iノートブックは14〜19FPSで動作していた。「Zacate」プラットフォームはより良い動作であった。

私が見たところ「Zacate」は27〜34FPSの性能だった。これはIntel HD Graphicsのほとんど2倍の性能である。「Zacate」は私たちが「Sandy Bridge」でみたものと同様の性能向上を果たしているように見える。確かにこれは「Sandy Bridge」のベンチマークではないが、基本的な性能アドバンテージは約束する。

AMDはまた二つのプラットフォームのInternet Explorer9(以下IE9)のベンチマークを用意し、その性能アドバンテージは明快であった。

IE9の電子ブック表示・ページめくりテストは2倍以上の性能改善が見られた。GPUをフルに活用したHTML5テストのPsychedelicベンチマークでは、完全に公園の外までノックアウトされてしまった。

AMDは私たちが満たハードウエアは2010年末に登場しシステムは1011年第1四半期には販売されると確約した。私たちはmini-ITXボードが同じ場所に置かれていたが、基本的な目的メインストリーム向けノートPC及び500ドル以下に価格が下がっているネットブック市場セグメント全体に当てることである。AMDはまた8時間以上のバッテリ駆動を設計にいくつか盛り込んでいることを約束したが、それはMobileMarkの数値であった。そのベンチマークは負荷率が低いのだ。

性能は完全に約束する。もし私たちがネットブックでグラフィクスの性能を見比べたのなら、私はそのフォームファクターが生き返るだろうと考える。

「Zacate」に付け加えるのなら、私たちは「Bulldozer」とAMDの「Northern Islands」GPUのローンチ情報の更新を行うだろう。そしてまもなく私たちは年末になる前にそのことについて聞けるだろう。いまはそれまで、今夜のIDFの報道から予測できるだろう。

—-

IDFの情報は他でたくさん書かれるからそれ以外を備忘録として載せておく。なお一部画像vr-zone.comより。

更新 2010年9月15日

anandtech.com AMD’s Zacate APU Performance Update by Anand Lal Shimpi on 9/15/2010 5:04:00 AM より。

Intel Core 5iの最新ドライバを導入した際のベンチマークがアップデートされている。

IE9のPhychedelicベンチマークではCore 5iが1774とZacateの1769を超えている。

またIE9のフレームレートもCore 5iが51fpsとZacateの47fpsを超えている。

あとはゲームのベンチマーク。


Zacate


Core 5i

Batman Arkham Asylum, FRAPS Walkthrough, 1024 x 768 High Quality

  • Zacate : 16.5 fps
  • Core 5i : 11.3 fps


Zacate


Core 5i

City of Heroes, FRAPS Walkthrough, 1024 x 768 Low Quality

  • Zacate : 39.6 fps
  • Core 5i : 25.5 fps

最後にDirectComputeのデモN-Body Simulationを。どんな計算かは「N体問題」で検索するといいかも。


Zacateの画像のみ

N-Body Simulation, DirectCompute Performance

  • Zacate : 23 GFLOPS
  • Core 5i : 8.8 GFLOPS

まあオフィススイート関連では僅差ながらCore 5iの新ドライバでZacateより性能が向上していることがわかる。ゲーム関連や演算性能そのものはZacateに軍配が上がるということか。

AMDの次世代CPU「Bulldozer」ベースの「Orochi」ダイ写真&「LIano」ウエハース写真

semiaccurate.com AMD shows off Llano wafer GTC 2010: Briefly, but they are real by Charlie Demerjian September 1, 2010

semiaccurate.com AMD outs the Bulldozer based Orochi die GTC 2010: Second generation fusions abound by Charlie Demerjian September 1, 2010

semiaccurate.com More Llano wafer pictures GTC 2010: You asked for better, we deliver by Charlie Demerjian September 1, 2010 より。

これは「Bulldozer」ベースの「Orochi」ダイ写真。32nmプロセスで製造される。

「Llano」のウエハース写真。「Llano」はAMDのGPU統合型CPUであるFusion APUの第1弾。

写真の出典元: semiaccurate.com

AMDの公式ブログで「Bulldozer」の20の質問パート2 バカ訳すみません

AMDの公式ブログで「Bulldozer」の20の質問パート2

  • 同じモジュール内でコア同士の「プログラム可能な」同期機能はある?またもし自分のマルチスレッドアルゴリズムを互いのスレッドに近いペアを組むことで性能を上げることはできるの?
    – Edward Yang

    • うん、良い質問だ。
    • 基本的にはOSがスレッドのスケジュールを管理する。WindowsやLinuxなら効果的にBulldozerのコア間のスケジュールをこなすよ。
    • OSは最高性能か最高ワットパフォーマンスのどちらを優先させるかでコア性能をブースとさせるよ。
    • だけど違うモジュールで最高性能をだすために自分でスケジューリングできるよ。
    • 二つの整数演算コアは完全に別れており、実行パイプラインはL1キャッシュではデータ共有されない。これはソフト側で最適化する必要はないから。
    • L2キャッシュは二つの整数演算コアで共有されており、同時に実行パイプラインから読むことができるが書込はどちらか一つのみなんで注意ね。
    • ということは、二つのスレッドが共有するL2キャッシュにフィットするようなデータを自分でセットすることが可能。これで性能がより向上するだろう。
    • 忘れないでほしいのは他のコアのこと。データ共有のメリットと次の実行可能なコアにデータを送るためのメリットを天秤にかける必要があるよ。
    • 通常すぐに実行可能なスレッドの側に次のスレッドを準備しておくことが良い。
    • もしマルチスレッドアプリケーションがL2キャッシュ向けに最適化していないかL3キャッシュ向けに最適化している場合、はっきりとスレッドを分けたほうが良い。努力しない方がいいよ。そうしなくてもスケジューラが最適に実行するから。
  • Bulldozerで違うモジュールの二つのコアで実行する場合と同じモジュールで二つのスレッドを実行する場合どのくらい性能がアップするの?
    – Simon

    • Hot Chip22でプレゼンした資料を見て。CMP(Chip MultiProsessing 複数のコアチップを一つのコアに納めた単純な方法)と比較して、二つの整数演算コアでの性能は大体80%向上する。
    • けどこれはリソースを共有しているから出せる性能。
    • CMPはいくつか欠点があり、それは熱とダイサイズが大きくなること。そのため性能が消費電力により制限されてしまう。
    • 簡単に考えて、4シリンダの300馬力と6シリンダーの360馬力のエンジンではどちらが排気ガスが少ない?
    • シリンダーあたりの馬力比は、75馬力/4シリンダーと60馬力/6シリンダーとなり、4シリンダーの方がシリンダーあたりの性能が高い。
    • けどエンジン全体で見ると、4シリンダのエンジンは低い性能で高いコストになり、より排気ガスが多くなるよ。
  • 現在IntelのNehalem EXベースの8ソケット64コアサーバをIBMとHPが出しているよね。Bulldozerベースのサーバではスケーラビリティをどのように出すことができるの?
    – David Roff

    • Bulldozerは現在の「Maranello」「San Marino/Adelaide」プラットフォームに適しているね。
    • 「Maranello」は4CPUをサポートしている高性能プラットフォーム。
    • 「Maranello」プラットフォームと16コア「Interlagos」プロセッサを組み合わせると4ソケット×16コア=64コアになるよ。
    • IDCによると、8ソケットのx86プラットフォーム市場は26%落ち込んでいる。
    • 2009年が不況だからだというなら、2007年や2008年の8ソケットx86プラットフォーム市場と比べると横ばい。
    • すなわち市場は成長していないんだよ。この事は結構市場にインパクトを与えられるんだよ。
    • 8ソケット64コアではメモリ搭載に必要な面積が大きくなるが、4ソケットだと低価格で小さいサイズ、低消費電力になる。
    • Bulldozerは2011年にこれを実現するからよろしくー。
  • 性能を見る限りだと、Bulldozerは一般・ビジネス向けCPUに求められる消費電力制御を持っていない様に見えるよ。現在のマルチコアユーザが乗り換える意味のある新しい特徴はないの?Bulldozerが現在ビジネスに求められている新しい消費電力削減機能を細かく説明できる?
    – Jeremy Stewart

    • 「Maranello」プラットフォーム向けの現在出荷中のOpteron 6100シリーズにBulldozerが備えている電力削減機能は既に組み込み済み。
    • 既に公式ブログには書いたけど、現在のマルチコアプロセッサの水準を上げる性能を提供するよ。
    • 私たちは動的共有及び動的リソース配分を備えた消費電力に効果的なマイクロアーキテクチャを実装しているよ。高速なクロックとパワーゲーティングを活用してね。
    • プロセッサのチップレベルのコアパワーゲーティングをサポートしているよ。
    • そのOpteron6100の新しい技術はPowerNow!やCoolCore、低電圧DDR3メモリサポートで非常に良い感じ。
    • 33%のコア数増加とより大きなキャッシュで、現在の我々の12コアプロセッサと同じ消費電力なんだよ。

—-

Nehalem EXの言い訳は苦しいな、AMDw。あとJeremy偉そうだぞ。謙虚に質問しろよ。

AMDの次世代CPU「Bulldozer」の詳細情報がHot Chip22で公開される。

概要として、「Bulldozer」と「Bobcat」はx86コアを二つの市場向けにチューニングしている。

  • 「Bulldozer」は「Sandtiger」ミドルクラスサーバ・ワークステーション向けCPUから登場する予定。
  • 「Bobcat」はノートPCやクラウドコンピューティングのクライアント機向け。

  • 「Bulldozer」コアはモジュール形式。
  • 二つの4パイプラインコアが浮動小数点演算スケジューラと二つの128bitFMACを共有する。
  • 「Bulldozer」はGlobalfoundriesの32nm SOI技術により製造される予定。

  • 二つの4パイプラインコアが浮動小数点演算スケジューラと二つの128bitFMACを共有する。
  • IntelのシングルチップHyperThreadingよりスループットが向上。

  • これは今日のデスクトップでは浮動小数点演算のコード量は非常に少なく、共有浮動小数点演算スケジューラを導入することで消費電力を抑えることが可能。またダイサイズ減少に貢献している。
  • また二つの128bitFMACは組み合わせて256bitFMACとして利用可能。
  • 「Bulldozer」はダイナミックに各コンポーネントとの接続を切り替えることで最大限のワットパフォーマンスを実現。
  • それぞれのコアは共有L2キャッシュを搭載している。

  • それぞれのモジュールはHyperTransportバスを介して様々な構成のマルチコアプロセッサを組み上げることが可能。
  • 各コアは共有L3キャッシュと接続され、統合型メモリコントローラがその先に接続されている。

  • コアが33%増加すると50%性能アップ。これは同じ消費電力の現行CPU「Magny-Cours」(Opteron6000シリーズ)と比較した場合。
  • 2011年中に提供される予定。
  • 6000シリーズのサーバ向けプロセッサは12〜16コアで6〜8モジュール構成である。
  • 4000シリーズは4〜8コアである。
  • サーバ向けチップセットは現在の市場ではG34・C32ソケットを利用可能である。これらのプロセッサは置き換えるだけで性能向上やコア数増加が可能である。
  • 重要な強化点としてメモリコントローラが大幅なメモリ帯域増加を提供することである。

  • 2番目の整数演算コアを追加するのに全体の12%の回路のみで良い。
  • そしてチップレベルでは全体のダイサイズの5%の追加で可能となる。
  • また「Bulldozer」に内蔵されたデスクトップPC向けノースブリッジより低消費電力で発達し粒度の細かいクロックゲートを実現。
  • DDR3メモリが利用可能で、またAMDの「TurboCore」テクノロジによりプロセッサをオーバクロックさせるモードを搭載している。
  • デスクトップPC向けは4〜8コアの「Bulldozer」が採用されると予想される。
  • ソケットはAM3+となり、現行のAM2やAM3ソケットでは「Bulldozer」は対応しない。
  • なおAM2+、AM3 CPUはAM3+ソケットで利用可能。

  • AMD FusionAPU「Ontario」に搭載される「Bobcat」コアと接続図

  • ノートPC向け「Bobcat」コアはデュアルx86コアにアウトオブオーダ実行、低消費電力が特徴。IntelのAtomはインオーダ型。

IntelのHyperThreadingとAMD Modulesが競合技術になるのか。また現行のAM3では「Bulldozer」コアが使えないらしいので、新たなAMDチップセットが登場するかもしれない。

あと、AMD Hot Chip ニュースサイト向けプレスキットはこちらから。

追加でAMDの公式ブログで「Bulldozer」の20の質問ラウンド1が掲載開始。

  • いろんなコードネームのチップが合って混乱しているんだけどどうなの?
    • これ読んどけ。基本はコア数だ。
    • “Interlagos” – 16-core server processor
    • “Valencia” – 8-core server processor
    • “Zambezi” – 8-core client processor
  • Intelの製品と比べ、AMDの仮想化技術の利点は?
    • コア数で簡単に比較できるよ。Opteron6100を二つ使えばコア数は24個、なんで24VMが動作できる。
    • また共有L2キャッシュもいい感じ。
  • 「Bulldozer」とFusion APU「Ontario」は同じコアなの?
    • 違う。「Bobcat」コアをベースにした違う設計チップ。
  • 「Thuban」チップのように「TurboCore」に対応するの?
    • その通り。サーバ分野で初めて「TurboCore」を導入するよ。
  • 「Bulldozer」チップはサーバ分野ではどのようなインパクトがあるの?
    • いろんな視点があるけど、まずはモジュール構造の導入が挙げられる。
    • 他には性能向上と低消費電力。
    • また仮想化技術の一層の性能向上。

バカ訳ですみません。

続きのパート2はこちらから読めます

うわさ FacebookがARMベースのサーバを採用した? SemiAccurate.com Charlie Demerjian氏

semiaccurate.com Facebook is the first to jump into ARM servers Tectonic change of our time by Charlie Demerjian August 23, 2010 より。

うわさ Facebookがx86ベースからARMベースサーバへ最初にジャンプした?

概要として、

  • FacebookがオレゴンデータセンターでARMベースアーキテクチャのサーバの置換えを始めた。
  • もしこのうわさが本当なら、ARMベースサーバを置き換え、x86サーバを近くの川に投げ込んでいる。
  • うわさの発端はオースティンにあるSmooth-Stone(※英文)である。SuperMicroにもいくつかのうわさがある。
  • これはARMCPUが「充分早い」と言うことであり、疑問としてはワットパフォーマンス及びスレッドパフォーマンスである。
  • Intel/AMDのx86CPUはより多いスレッドをより多い消費電力で動作させる。
  • スレッドあたりの消費電力は少なくともFacebookのPHPベースシステムではARMでは少なくて済む。
  • だけれどもIntelは愚かに恐怖すると思うのは数多くものXeonCPUが多大な消費電力のために潜在的に置き換えらることでもなく、それはAtomで勝利することでもない。実際彼らはARMインストラクションセットアーキテクチャがライバルであるとは直接答えなかった。
  • もしFacebookの実験が良い結果になるのなら、データセンター内で同じように置き換えが始まり、価格を圧縮するだろう。
  • 実際のところFacebookは実験ではなくARMに移行し、そしてより先見性のある代替品に置き換えるだろう。
  • この事はデータセンター内で変化し、あなたはその結果をまだ見ることはないだろう。

—-

斜め読み失礼。最近噂のARMベースサーバですか。かつてのmipsやSPARCなど様々なCPUがサーバで動作していた時代に回帰する感じだろうか。
なおTransmetaは省電力サーバとして生き残りをはかろうとして失敗したが、AMDの「Bulldozer」アーキテクチャは一般向けは浮動小数点演算を、サーバ向けは整数演算を重視されるようになると予想を立て各演算コアを分離独立して動作するようなモジュールアーキテクチャを採用している。

IntelのSoC・サーバ関連主席研究員のDonald Newell氏をAMDのバイスプレジデント及びCTOに任命する。

xbitlabs.com AMD Appoints Ex-Intel Veteran as Server Chief Technology Officer. Ex-Intel Executive to Define AMD’s Server Roadmap [08/23/2010 06:37 AM] by Anton Shilov より。

AMDは前IntelのベテランをサーバCTOに任命する。

前のIntel幹部がAMDのサーバロードマップを決定する

by Anton Shilov

2010年8月23日

AMDは2010年8月23日月曜日にDonald Newellをヴァイスプレジデントおよびサーバビジネス部門のチーフテクノロジーオフィサー(CTO)として任命すると発表した。Donald NewelはAMDのサーバ向け製品のロードマップを決定する手助けを行ない、シニアバイスプレジデントおよびAMD製品グループのジェネラルマネージャであるRick Bergmanの部下となる。

「Don Newellはシーダーシップスキル、エンジニアリング及び設計の専門分野そして戦略の方向性を力強く結合させることとができる。私たちは幸運にも2011年ローンチを予定している私たちAMDのOpteronプロセッサである『Bulldozer』コアを出荷する準備を行う際にDon Newellを役職にそえることが出来た。』とBergman氏は述べた。

AMDのサーバCTOとして、Newell氏は現在の状況や長期のサーバ需要やトレンドを基にAMDの長期サーバーロードマップの構想及び定義付けを行う能力がある。彼は複数の世界規模のチームを率い、並行して他のAMD設計及び開発チームと設計から市場供給までの段階の流れに成功を保証する仕事を行う。

彼の16年間のIntelでの仕事の間、Newellはクラウドコンピューティングからハンドヘルドデバイスに及ぶ広大な範囲のSoCおよびサーバプラットフォームアーキテクチャ革新を率いてきた。NewellはまたI/Oアクセラレーション技術(IOAT)を初期の調査から製品の一片までを着手から駆動させるまで行ない、ヘテロジニアスコンピューティングの詳細なアーキテクチャを開発し、PC業界で最初のデジタルTV受信機を提供する能力がある。彼は彼のチームと共にキャッシュQoSやネットワークプロトコル制御のような先進的な論文を発表したことがある。Newell氏は60以上もの論文誌のピアレビュー(※査読)を行なっており、インターネット上での動画転送について記述されているIETF RFC2429の共同執筆者でもある。Intelに所属するのに先立って、彼はDatanex Softwareの最初のソフトウエアエンジニアであり、最近までSequent Computersに所属していた。Newellはオレゴン州率大学の科学学士を受け取った。

20以上の特許を取得している際立ったエンジニアであるNewell氏はAMDの所属する前にIntelの研究所でSoC及びデータセンターネットワークアーキテクチャグループのシニア主席エンジニアに席を置いていた。

—-

IntelといいnVidiaといい流出した人材の受け皿だな、AMDは。これでOpteron関連の出荷問題などを解決に導ければ経営も安定していくだろう。