NVIDIAのProject Denverのファーストシリコンは8コアARM、256CUDAコアのAPU?

1st Silicon with NVIDIA Project Denver is an 8-Core ARM, 256 CUDA Core APU? 7/18/2011 by: Theo Valich – Get more from this author より。

NVIDIAのProject Denverのファーストシリコンは8コアARM、256CUDAコアのAPU?

複数のニュースソースから聞いた情報によると、NVIDIAは最近コードネーム「Project Denver」のSoCである最初の「CPU」を目標とした設計を公開し展開を始めた。

私達が入手した情報は、プロジェクトデンバーCPUコアが「T40 – Tegra4 (Wayne)」に非常に似ているように見える。内部スケジュールによると、Wayneのシリコンは今後2週間以内にテープアウトする予定であり、ディベロッパーはそれらのプロトタイプシリコンを2011年12月に手に取ることができるとしている。Wayneシリコンは4つ以上のARMコアから成り立っており(NVIDIAはコアのタイプを公開しておらず、ふざけてて言うならA15かPDであろう)、64個以上のGPUコアを含む。

同じ2011年12月の間に、NVIDIAはProject Dennverをベースにしたファーストシリコンをテープアウトする予定である。それらは8コア以上のNVIDIAカスタムの64bit ARM CPUにGeForce 600クラスのGPUを組み合わせた物である。NVIDIAはCPUの開発に数多くの問題を抱え、一般的な意見としてはNVIDIAはシングルの28nm PD CPU設計と28nm Fermiベースの設計を細葉した慎重なアプローチを取るだろうと言われている。 言い換えれば、ノートPC・ローエンドデスクトップPC向け GeForce 600シリーズカード(「GeForce300」を思い出す?)にリフレッシュしたFermiベースの設計であると噂されてる。

他のニュースソースによるとこのニュースの題名のとおり、シリコンのGPU部分は「少なくとも256 CUDAコア」で、「Northern Islands」とBulldozer拡張CPUを組み合わせたAMDのTrinity APUを目標としているとのこと。VLIW4アーキテクチャとAMDのキーとなるAPUは2012年に登場する予定である。計算処理能力を拡張するため、NVIDIAは天国に登るような高い動作クロックを求めず、それぞれIPC(クロックあたりの処理可能な命令数)の向上を可能な限り高めることを求めている。まだその製品は現実的には2.0-2.5GHzでCPUやGPUが動作するだろうと予測されており、メモリーコントローラーとシリコンの残りの部分はより低い比率のクロックのまま動作すると予測されている。

AMDのAPU設計と異なり、CPUとGPUパーツはDDR3メモリの速度で動作するメモリコントローラにより接続されており、Project DenverはCPUとGPUがより緊密に通信可能な方法を模索しており、言い換えれば最も良いGPU設計は広帯域な接続により実現できるということである。NVIDIAはL1、L2、L3キャッシュの設計を従来通りでは設計せず、GPU部分がキャッシュメモリと1TB/sec以上のコネクションを持っており、噂にあったDenverコア設計と非常に良く似たアプローチをとっている。GPU部分同様に、メモリコントローラーはシリコンダイ面積をとっており、CUDAコアはCPUコアと接続されCPUは接続帯域の要求に対し優先してアクセスできる。

だけれどもNVIDIAはCPUに必要な全帯域の10-20%のみを必要としており、GPUは引き続きシステムメモリが充てられるだろう。

またノートPCやデスクトップ、サーバーのマザーボード設計が進行中で、PCI Express 3.0はメインコネクションの特徴であるとうたわれており、USB3.0やSATA 5GBpsが同時に接続される。これらの与えられた情報によると、NVIDIAは残りの全ての前線に攻撃を仕掛けるようだ。軽量ノートPC分野には低スケールTegra3と4(スマートフォン/タブレット/ネットブック)を割り当て、よりパワフルなシリコンは軽量ノートPCやデスクトップに使われ、サーバー分野にはより興味深い戦略で望むのだろう。

一方、PD CPUの1世代に、NVIDIAはパワフルなGPUを武器にブレードサーバ市場に算入することを望んでいるが、また一方でNVIDIAはTeslaのビジネスでIntelやAMDのx86コアへの依存を排除したがっている(一つのTeslaGPGPUは一つの- XeonかOpteron -が要求される)。それらが等しくx86からの脱却は確実に利益を多く見せるだろうが、一方でAMDとIntelは頭から足の先まで同じシリコンを使ったデスクトップ・ノートPCで利益を充填し楽しんでいる。

nVidia CEOはTegraの製造をTSMCからGlobalfoundriesに移行を否定する – nVidiaは虎の尾を踏んでしまったか?

Nvidia president denies shift of orders for Tegra from TSMC to Globalfoundries Monica Chen, Santa Clara; Joseph Tsai, DIGITIMES [Wednesday 6 October 2010] より。

台湾メディアの独占ニュースカンファレンスによると、nVidia代表取締役兼CEOであるJen-Hsun HuangはnVidiaがTegraプロセッサの製造委託先をTSMCからGlobalfoundriesに移行するだろうという噂を否定し、nVidiaとTSMCは力強く結ばれたパートナーであると強調した。

HuangはまたnVidiaのGPU市場シェアの減少は、第2四半期にたった二つのDirectX11ハイエンドFermiチップのみの出荷し、AMDにメインストリーム市場へのアドバンテージのチャンスを与えてしまったためと説明したが、nVidiaは既にFermiベースの製品のフルラインナップを用意しており、ノートPCおよびデスクトップPC向けディスクリートGPUカードの売上が上がると共に市場シェアも徐々に上がり始めると語った。

nVidiaは既にハイエンドGeforce GTX480/470とメインストリームGTX460とGTS450をローンチしており、エントリーレベルのGT430が新しいGPUシリーズのギャップを埋めるだろうとHuangは説明した。

現在の世界経済は素早く流動し第4四半期のPC市場の状態を正確に予測することは難しいことではあるが、Huangは四半期中のPC市場の需要について楽観的であり、中国の強い需要と、ヨーロッパやアメリカの需要が徐々に回復していると見ており、それ故nVidiaは第2四半期の売上は第2四半期に比べより力強いものであると見ている。

それに対してIntelとAMDの双方はCPUとGPUの統合を推し進めており、HuangはCPUとGPU演算方法は非常に複雑であると指摘し、それらを一緒にパッケーングする技術を開発することは難しい挑戦であり、もし如何なる問題が起きても製品ローンチに深刻な遅延を引き起こすだろう。事実AMD Fusionのローンチは2年間遅れ、現在のGPU統合型CPUに比べ低性能であり、IntelのSandy BridgeCPUは現在唯一DirectX10.1をサポートし二つを一緒に組み合わせる難しさを示している。

HuangはまたIntelの2012年のIby Bridge CPUは現在の問題を解決できるとは疑わしいと語った。それ故nVidiaはそのような状況に心配しておらず、nVidiaはGPU平行演算技術をかけがえのない技術になるであろうとしている。

うわさ nVidia自身がGPUボードを生産する? – 3dfxの末路をたどるか

vr-zone.com NVIDIA becomes its own AIC? Published on Tuesday, October 5 2010 12:52 pm by Sub より。

nVidia自身がAIC(Add In Card)ベンダーになる?

GPUの業界に措いて、GPU設計者(nVidiaやAMD)がGPUを設計する。その生産はfab(TSMC)などにアウトソーシングし、リファレンスデザインがAIC/AIB(Add In Card,Add In Board)パートナー(XFXやAsus等)に手渡され、パートナーがビデオカードを組み立てる。時々パートナーはGPU周辺部分を自社オリジナルで設計したカードをつくるが、それは例外である。だけれどもnVidiaは大胆にもこの流れを破ろうとし、汲み立てから販売まで自身で行おうとしている。HardOCPはnVidiaのGTX460カードをいくつか購入し写真を掲載しているが、直接nVidiaから購入し、恐らくどこのAICパートナーも関与していない。

興味深いことにnVidiaのコールセンター代理店からはnVidiaから直接購入できるカードの存在を知らない。これは尋常ではないことを暗示し、それ故少しだけどのようにAICを通さないnVIdiaのカードがある日突然BestBuyの店頭に並んだのかは謎である。これらの謎めいた新しいカードの存在を理由に推測することは早すぎるが、より多くの情報がフィルタを通り抜けて来るだろう。

—-
かつてPCゲーム向けにはVoodooチップを生産している3dfxが君臨していたが、DirectXの普及とボードメーカ買収による自社ブランドのみのボード生産でパートナーの離反を招き販売網をATI(当時)やnVidiaに奪われ、結局nVidiaに買収された経緯がある。それを彷彿させる噂である。

nVidiaはCUDAのx86アーキテクチャへの最適化にほとんど興味がない – アナリスト談

xbitlabs.com Nvidia Hardly Interested in Optimal Performance of CUDA on x86 Processors – Analyst. Despite CUDA x86 Cross-Compiler, Life of Programmers Will Not Get Easier [09/28/2010 07:49 PM] by Anton Shilov より。

nVidiaはCUDAのx86アーキテクチャへの最適化にほとんど興味がない – アナリスト談

CUDAのx86向けクロスコンパイラに反して、プログラマの生活はより良くはならないだろう。
Anton Shilov
2010年9月28日

nVidiaとPortland Groupは先週nVidia CUDAアーキテクチャからx86へ、又は逆にx86からCUDAへソフトウエアを開発することができる特別なコンパイラを登場させた。これはソフトウエア開発者が彼らのプログラムに広く互換性を保証し、高並列GPUアーキテクチャを活用できることを提案している。だけれども、ソフトウエアメーカの生活はより良くなることはないだろうと、Jon Peddie ResearchのAlex Herreraは語った。

異なるアプリケーションのため、これらにはスーパーコンピュータ分野も含まれるが、より高い性能を照らす光明があるにもかかわらずATI RadeonやnVidia Geforceのようなグラフィクスプロセッサのために作り直されることはない多くの理由がある。主な理由の一つは、これまでも使われているレガシーなコードがあり、既に業務で使用されているためほとんどど捨てることができない。コンパイラはPGIとnVidiaが共同でソフトウエア開発者にCUDAベースのソフトウエアをx86プラットフォームにアプローチすることでテストしてもらいたがっており、信頼度を測ってもらいたがっている。それにもかかわらず、十分に安定して動作しているが、CUDAベースのソフトウエアのx86アーキテクチャでの性能はほとんど最適化されていない、とHerrera氏は主張している。

GPUベースのnVidia PhysXがそうであるようにCUDAもまたSSE2等のSIMDインストラクションをサポートしていない。新しいコンパイラはAMD BulldozerやIntel Sandy Bridgeマイクロプロセッサで使われる予定のAVXのようなものもサポートしないだろう。その結果、アプリケーションソフトウエアはx86プラットフォームでは最高性能を発揮できないだろ。

「x86で動作するCUDAはCUDAを使用しないでx86アーキテクチャに最適化されたアプリケーションソフトより遅くなるだろう。そしてx86で動作するCUDAアプリケーションやFermiで動作するアプリケーションを動作させる開発者は、最初に簡便に最適化できるCUDA無しのx86プラットフォームのほうが他のCUDAベースのアプリケーションよりも速く動作するのを目撃するだろう。より大きな性能向上によるベンチマーク数値はnVidiaが多くの浮動小数点演算を多用するアプリケーションソフトウエアでCPUよりもGPUのほうがより速いと宣伝する目的で使用されるだろう。」とアナリストは語った。

最後に、特定の目的および一般向け商用ソフトウエアの設計者は異なるハードウエアのために異なるコードを実装する必要が出てくるだろうし、いくつかは既に行われている。


開発側の負担が大きくなるだけで誰も得をしないということだな、nVidiaのCUDAは。あくまでも宣伝用でしか無いと。

nVidia CEOがFermi出荷遅延について問題点を率直に語る

hexus.net NVIDIA explains initial Fermi delays より。

nVidiaのJen-Hsun Huangが最新GPUの出荷の遅れを引き起した原因について驚くほど率直なインタビューでいくつか説明してくれた。

インタビューと動画撮影をしたジャーナリストはGolem.deである。huangは、会社は設計図は現実に可能であることと必ずしも調和しないということを気付かされたと説明した。Fermiアーキテクチャの製造で生じた問題は、それそれが相互接続インターフェース群を経由して接続されている複数のストリーミングプロセッサ(SM)クラスタが壊れてしまったことである。

Huangはこれらの相互接続インターフェース群は密度が高くきつく束ねられた織物の繊維のようであると説明した。設計上では、相互接続インターフェースはそれぞれの演算コアとチップのそれ以外の部分とが非常に高速に通信できるようにされていた。だが実際には計画とは全く異なった。

最初のサンプルがTSMCから受け取ったとき、全てのSM群は正常に動作しているように見えたが、他のSMとの通信が全くできなかった。一見したところ相互接続インターフェースは、信号がそれぞれ干渉しあい、完全に通信ができなかった。それはチップ内で情報を伝えることができない交通渋滞のようなものである。

Huangはそれを「設計とツール及び現実との間が完全に壊れてしまった状態」と語った。その問題は製造エンジニアと設計エンジニアがそれぞれ別の部門に所属していたために発生した。その問題自身は解決はそんなに難しいわけではないが、経営管理者によって問題に対する解決の指示を部門に割り当てなかった為、その問題は中に浮いたままになってしまった。結果として動作しないチップを再設計しなおす必要になり、最初のFermiアーキテクチャグラフィクスカードのローンチ遅延を引き起した。

これは単純な懺悔だが、特に経営層にとって会社が間違いを広く認めているように見えることは元気づけられる。そしてそれらの問題から前進することを学ぶことを願うばかりである。

—-

えっと、製造プロセスと設計に問題があって、組織上の問題が重なって製品が遅延したということか?
その間AMDはTSMCで改善に取り組んでいたわけだし、同じ製造会社で問題を回避しHD5000シリーズは大ヒットしたんだよな。
…問題は経営者か。

うわさ AMD Radeon HD6870が2010年11月に登場 – チップ製造は非常に良好 SemiAccurate Charile Demerjian氏記事

AMD’s 6870 coming in November Early silicon doing very well by Charlie Demerjian September 24, 2010 より。

AMDのHD6870は11月にやってくる

初期シリコン製造は非常にうまくいっている
Charlie Demerjian
2010年9月24日

ATIが、おっとすまないAMDは、HD6870をうまく軌道に乗せているようである。早くもAMD中央からは二つの大きな情報が手に入った。

私たちは既にATIの、またすまないAMDの最初のシリーズである「Northern Islands」ファミリーの「Barts」が既にテープアウトしたことを伝えた。「Barts」はミドルレンジでNvidia GF104/GTX460に正面から対抗するために作られており、それはHD6770と呼ばれている。それはまもなく出荷準備をしており、強豪相手を消し去る予定である。

「Barts」の兄である「Cayman」は「Barts」の1ヶ月以内にテープアウトし、それは「Barts」から1ヶ月後に通りを埋め尽くすと予想している。これは11月の中旬から下旬にかけてHD6870として店に並ぶだろう。SemiAccurateのソースは私たちにそれが正確に起きることを話している。

OEMへの発送は「Barts」HD6770が通りを埋め尽くす時期に出荷開始される予定である。これは2週間〜4週間後のブラックフライデー(感謝祭翌日)に合わせるだろう。ブラックフライデー以前の噂は適切でなく、このカードは本当に出荷され、nVidiaが2009年にFermiを本物としてモックアップを掲げたときとは違う

この出来事ののもう一つの側面は、前回と異なり最後が870の数値以外のカードが今回は非常に大量に供給されているということである。それは既に需要に応じて初期の在庫不足が生じた時から、周辺のウエハース供給が非常に多く、頂点に達し歩留まりも非常によく、最初の工場からでたシリコンウエハースはHD5870/Cypressが同じラインで製造されたときよりも遥かに歩留まりが良くなっている。

結論として11月には「Northern Islands」カードのHD6800とHD6700の両方共非常に大量に供給されるだろう。もし需要が正常な場合、デュアル「Cayman」カードであるHD6900「Antilles」は2010年末よりも前に市場に登場するだろう。もしHD6870の需要が高すぎる場合、HD6970は適切に供給ができるようになるまで少しだけ登場が遅れるだろう。ATI、おっとまたまたすまないAMDは前回の件からそれについて強く学んでいる。

暇なのなら、2010年残りの時期はGPUのスタートポイントとして非常に興奮するだろう。そして2011年初旬もいい感じだろう。もしあなたがnVidiaの株式を保有しているのなら、あまり楽しめないだろうが。

Linux上でネイティブなDirectX 10/11の実装が実現 – Gallium3DによりオープンソースでGPUドライバ実装が可能に

phoronix.com Direct3D 10/11 Is Now Natively Implemented On Linux! Published on September 21, 2010 Written by Michael Larabel より。

概要として、

Luca BarbieriとMesa / Gallium3D開発者がオープンソースのグラフィクスドライバでMicrosoftのDirectX10と11のAPIをLinuxに搭載することに成功し、既に動作しておりWineに統合中とのこと。

Luca Barbieriは「D3D1x」と呼ばれているDirect3D 10/11 COM APIをGallium3Dに追加した。
Lucaはこれは単なる初期バージョンであるとしているが、既に動作しいくつかのDirectX10/11のテクスチャデモがLinux上で動作させることが可能。
これは現在のWine実装のようにDirect3DをOpenGLへ変換したりせず、ネイティブにGallium3DとTGSIに直接グラフィクスドライバ及びハードウエアとやりとりが可能である。
Gallium3Dの設計に感謝し、Direct3Dのサポートが基本的にLinuxドライバにほんの少しかほとんど変更無しで「フリー」で可能となる。

freedesktop.orgのコミットを読むと、「最初のゴールは複数のAPIサポートというGalliumの約束を現実にすることであり、Galliumの上に非常に薄い簡単な実装により動作を可能にすることを提供し、たくさんの巨大な絡みあったプログラムコードの必要なOpenGLの代わりになる。2番目のゴールはWineを使いLinux上でWindowsのDirect3D 10/11仕様のゲームを動作させることである。」

Wineもこの活躍に感謝を示し、DLLのいらないWineへの組み込みは行われいているが、Lucaは目標達成は全く持って簡単であると語った。

もしこの出来事がより良くできなければ、「FglrxとnvidiaドライバはOpenGLを使えるようなGalliumドライバを開発することでサポートが可能となり、それは比較的簡単な作業である。Direct3D 10/11の偉大な設計とGalliumとの近密性に感謝し、このアプローチが体感できるようなオーバーヘッド無しで結果を得られ、FglrxやnvidiaのプロプライエタリドライバからGalliumのオープンソースドライバに切り替えるパッチを提供するだけででほとんどメンテナンス可能になる。

特にDirectX10.0の限定サポートやDirectX11.0の未サポート状態のWineにとってこのニュースは信じられないようなものである。

現在の他のゴールについて、「3番目のゴールはWindowsシステム以外で動作するOpenGLを代替する高品質なグラフィクスプログラムの実現を可能にし、特にLinuxやその他フリーやオープンソースシステムにもたらされる。一から開発されたこの非常に簡潔で練られたコードに感謝し、Direct3D 10/11はOpenGLに比べ極めて良いAPIであり、極端なまでに少ないコードと開発時間でサポートすることが可能となり、あなたは現在存在するMesa OpenGL実装のプログラムソースと比較することも可能である。」

Linux上で標準でDirect3D 10/11が実装されたことについていくつか考えさせられるのは、「最後に、成熟したDirect3D 10/11実装はOpenGL実装に比べ本質的により高速でより高信頼であり、劇的に小さなAPIはアプリケーションを開発する目的のために必要な開発により多くの時間を割くことが可能になる。」

VMwareは以前Direct3Dの実装をし、それはオープンソースでもなく、Windows上でのGallium3D実装でDirectX9をターゲットにしたものであったが、それとは全く異なり、コミュニティメンバー達により開発されたオープンソースであるということである。

Gallium3Dの成果はMesa開発者たちにも可能なマイルストーンを準備した。
幸運にもまもなく私たちはOpenGL 3.x/4.0が実装されるのを遂に実現できるだろう。Linux上でのDirect3D 10/11実装の実現には26,000行の追加がMesaに必要であった。
私はMicroosftがDirect3DをLinux上で実装するのに彼らに何故ビール(※beerとwine。ソース元のページには開発者がビールで祝っている画像がある)を買ってやったのか不思議でたまらない。

※コミット内容

  • Independently created headers for Direct3D 10, 10.1, 11 and DXGI 1.1, partially based on the existing Wine headers for D3D10 and DXGI 1.0
  • A parser for Direct3D 10/11 DXBC and TokenizedProgramFormat (TPF)
  • A shader translator from TokenizedProgramFormat to TGSI
  • Implementation of the Direct3D 11 core interfaces
  • Automatically generated implementation of Direct3D 10 and 10.1
  • Implementation of DXGI using the “native” framework of the EGL st
  • Demos, usable either on Windows or on this implementation
    • d3d11tri, a clone of tri
    • d3d11tex, a (multi)texturing demo
    • d3d11gears, an improved version of glxgears
    • d3d11spikysphere, a D3D11 tessellation demo (currently Windows-only)
  • A downloader for the Microsoft HLSL compiler, needed to recompile the shaders (compiled shader bytecode is also included)

なお、x86_32でのみテストしたとのこと。

—-

すごい事になったな。OpenGLを介さずに実現するとは。

nVidiaの次世代GPU「Kepler」は2011年第2四半期に登場予定

vr-zone.com NVIDIA next-gen is “Kepler”, 28nm in H2 2011 Published on Wednesday, September 22 2010 5:17 am by Sub より。

nVidiaの次世代GPU「Kepler」は2011年第2四半期に登場予定

GTC2010開催中に、nVidiaは現在呼ばれている次世代GPUアーキテクチャ名「Kepler」を公開した。nVIdiaは未だに「Fermi」シリーズの最後のチップである「GF108」を2010年10月にGeforce GT400リリースして製品ラインナップを補間するのに忙しい。次の大きなステップはたった2011年第2四半期に「Kepler」と共に進むという。

「Kelper」はワットあたりの倍精度性能を「Fermi」の2倍〜3倍の向上を目指している。不運にもGTCは伝統的にゲームよりもコンピューティングに重きを置くが、倍精度演算はゲームにとっては少なくとも現時点ではあまり重要ではない。ゲームに関連する様々な大きな革新は将来開示されると考えることが適切だろう。「Kepler」と共にやってくる「Maxwell」は、相当なワットあたりの倍精度演算性能の改善を約束しているが、nVidiaの科学者の名前をアーキテクチャ名にする流れは2013年および22nmまで続くだろう。

2011年第2四半期の「Kepler」および2013年の「Maxwell」のスケジュールが公開されている間、nVidiaもTSMCも目標日程に合わせるために必要な工程全てに成功しているわけではなく、我々はこれらの日程を割り引いて捉えるだろう。特にかつて「Fermi」が同じスライドに2009年の日程が書かれており、実際には一番早く「Fermi」カードが登場したときは2010年4月しか可能ではなかったことを考えると現実には目標日程は割り引いておくことが妥当であろう。たとえそうでも、2011年第2四半期はかなり遅い時期であり、私たちはAMD HD6000世代との戦いの前に幾らかの蓄えを持っておくことを願うばかりである。

参照元:Fudzilla

—-

ちなみに「Kepler」(ヨハネス・ケプラー)は、17世紀現在のチェコ共和国にてプラハでティコ・ブラーエの膨大な天体観測結果から、コペルニクスの地動説の問題を解決し惑星運動の3大法則を発見した偉人。
「Maxwell」(ジェームズ・クラーク・マックスウェル)はアンペール・マックスウェルの法則(変位電流と磁場の関係)およびマックスウェル方程式で電気と磁気を統一する電磁気学を創設した偉人。
さてnVidiaはこれらの偉人の名前を傷をつけない製品を開発できるのか?

AMDの次世代GPUの「Barts」のメモリコントローラについて妄想してみる

semiaccurate.com Northern Islands Barts benefits to moar, bigger? by Stephen Werner September 20, 2010 より。

概要は下記の通り。

  • AMD Radeon HD6770について非常に期待されているが、いったいどのくらいの価格帯なのか?
  • Radeon HD6770もしくは「Barts」は256bitメモリインターフェースと噂されているが従来のRadeonの価格帯では128bitが通例だった。
  • 製造コストを上げてまでAMDは256bitを採用するのか、HD5770「Juniper」の2倍の帯域が必要なのか見ていこう。
  • まずはRadeon HD5770のGPU動作周波数とメモリ周波数を調整する。Crysisと3DMark Vantageの数値から見ていく。実際にはDDR5のECCによる帯域への影響が結果として出るかもしれない。
  • メモリクロックをテストが失敗しない数値まで増加させた。結果数値は動かない。ベンチマークを他の日にもう一度動かしても数値は動かないので結果には自信がある。

Vantageは8.3%のメモリクロックまでで不具合を起こした。 **全体の合計より大きい点に注意

  • これらのテストではAMD PhenomII X4 3.2GHz、4GBメモリ、Windows7 64bitを使い、CPUのボトルネックが発生していないことを似たようなベンチマークを使って確認している。
  • 結果GPUのオーバークロックはメモリのオーバークロックより効果的であり、DDR5のECCによる帯域への結果は出ていない。結果として合計で35%の性能向上ができた。
  • 興味深い点はCrysisのスコアである。GPUとメモリのオーバークロックは個別にオーバークロックしたときの合計よりも性能向上につながる。
  • この結果からHD5770はバランスの良い製品であるという明快な結果が出た。

他のGPUでも試す。

  • HD4890は二つのチップを載せているが、DirectX11対応ではない。もちろんメモリコントローラも既に古い。
  • 理論的にはHD5770とHD4890の間にはメモリ帯域により20%の性能差がある。
  • HD4890をだしたのはメモリコントローラの違いを測定するためではなく、メモリ帯域がHD5770の76.8GB/secに対して124.8GB/secと67%大きい点で比べた。
  • 注意して表の数値を比べてみて欲しい。二つのGPUボードには20%の性能差がある。

  • 興味深い点はHD4890のメモリ帯域により性能が100%拡大しているわけではないところである。それでも30%〜40%の性能向上は見られるのだが、HD4890はHD4870よりメモリは遅い。
  • HD4870はHD5770より50%もメモリ帯域が大きいが、これ以上速いメモリが必要ではない。よってメモリを速くしても少ししか性能は上昇しない。
  • 更にnVidia Geforce 9600GTと9800GTで比較する。両方とも256bitメモリコントローラである。スペックか下記のとおり。

  • 9800GTは9600GTにほとんどの点で優っており、9800GTのテクセルフィルレートや浮動小数点演算能力は9600GTに比べ62%も上である。
  • メモリフィルレートは9800GTと9800GTXはほぼ同じである。
  • 一般的に9800GTは9600GTより15%性能が上であり、その結果メモリの帯域上昇による全体の性能上昇は小さいことがわかる。

メモリ帯域増加によるコスト

  • X-bit labsはRV770のメモリコントローラサイズを4,000万〜4,500万トランジスタと計算している。これはRV770の全体のトランジスタ数の5%未満である。
  • RV770とJuniperは似ている点があり、メモリ帯域が増加することによりトランジスタ数が増加していない点である。
  • この意味はJuniperのメモリコントローラが2,200万トランジスタか全体のトランジスタ数の2%前後であることがわかる。
  • ダイサイズに何が占有しているかはわからないが、一般的なメモリコントローラのトランジスタ密度を知らなくてもある程度のトランジスタ数を見積もることができる。
  • ポイントとして、「メモリコントローラーは128bitと256bitでダイサイズの影響は殆ど無い」ということである。
  • ダイサイズのコストはその大きさが小さくなると歩留まりが少しだけ上がる。もしPCB基板のコストが1層あたり10ドル上がるとした場合、コストの大半はPCB基板が占めるだろう。
  • 9800GTと9600GTを比較することにより、シェーダ数とテクスチャユニット数が性能向上に有効な点がわかる。メモリコントローラを2倍にしてもダイサイズ上では2%〜10%の間に留まるだろう。
  • シェーダ数とテクスチャユニット数の増加は性能向上もあるがダイサイズを大きくしてしまう。だがほとんどのコストを占めるPCB基板のコスト上昇は抑えられる。
  • 数多くの選択肢からどの道を行くのかを決めており、AMDとnVidiaは自身のパートナーの粗利を壊すことなく自身の粗利を確保しているだろう。
  • 歩留まりは予測され決定される必要があり、適切なコストは目標としている性能カテゴリの主要な要素であり、バランスが必要である。

「Barts」は256bitメモリコントローラか否か

  • 「Barts」の競合製品が何であるか思い出すことは非常に重要だ。それはnVidia Geforce 460GTXで、「256bitメモリコントローラ」を持っている。
  • AMDがそのような製品に128bitメモリコントローラを採用した製品で競争することは無いだろう。
  • 「Cayman」シリーズのDDR5メモリコントローラが「Barts」の1,600MHz(x4)であり、25%しかメモリ帯域が大きくない点がそれを示している。
  • もし40%以上のメモリ帯域を上乗せしても全体の性能は10%未満であろう。
  • 256bitメモリコントローラは確かに20%の性能向上をもたらす。
  • ただ確かな点は「Barts」は他のアーキテクチャ改善を行っているだろう。より多くのメモリ帯域は性能向上を提供するが、GPUとメモリクロックを一緒に上昇させたときの素晴らしい性能向上を思い出して欲しい。

最後に誰もが新しいアーキテクチャはダイサイズが小さくなるとメモリ帯域の制限により性能が制限されてしまうだろうと思うが、より大きなメモリコントローラは「Barts」シリーズに性能改善の多大なる貢献をするだろう。

AMDは同意しているかって?あと数週間でわかるよ。

—-

とりあえずスケジュールがHD5000シリーズ時より1ヶ月遅れているようなので2010年10月頃発表・月末販売開始か?

AMDの次世代GPU「Barts」の情報がリークされる – Geforce GTX460キラーとなるのか?

semiaccurate.com Supposed AMD Barts specifications leak Looking very promising if the price is right by Lars-Göran Nilsson September 16, 2010 より。

噂されていたAMDの「Barts」の詳細がリークされる。

もし金額設定が正しいのなら見る価値アリ
by Lars-Göran Nilsson
2010年9月16日

今回登場したものはChiphell経由で再びこれから登場予定のGPUについてのAMDプレゼンテーションスライドで、それはAMDの登場予定の次世代GPU「Barts」の価格を予測させる全てが暴露されている。AMDはnVidiaのGeforce GTX460モデルに対し2種類のパーツを登場させ、性能と価格の項目両方で比較している興味深いスライドである。

二つのうち下のクラスのGPU「Barts Pro」は768MB GTX460に対して登場し、「Barts XT」は1GB GTX460に対してぶつけられる。私たちがそれらの記載されたカードの組み合わせはより速いオーバークロック出荷バージョンカードの潜在能力を秘めた現在のRadeon HD5830とHD5850にどこか近い性能で落ち着くだろうと推測される。それは、性能はAMDが元々弱点であったベンチマークでの性能を引き上げることに依存した性能向上であろうと言われている。

「Barts Pro」はコアクロックが700〜725MHzで、1GBの256bit GDDR5の実行クロック4GHzのメモリインターフェースを搭載しているだろう。それは10個のSIMDユニットを持ち、40個のテクスチャユニット、800シェーダ、32ROPsおよび128Z/Stencilの性能になるだろう。そのプレゼンスライドは「Barts Pro」が150W以下であると書かれている。「Barts XT」はコアクロック850MHzで実行クロックが4.2GHzに引き上げられた同容量メモリ・メモリインターフェースを搭載しているとある。AMDはまた12個のSIMDユニット、48個のテクスチャユニット、960シェーダまで性能向上されていること特徴としている。「Barts XT」は150W以上であると書かれている。

これは理論上は良く見え、AMDがnVidia GTX460の性能面で打ちのめす役割である「Barts」に大きな問題は存在しないということが隠蔽されている。疑問はそれらのGPUカードがどのくらいの金額で販売されるのかということだが、幸運にもAMDはここで冷静に、私たちは「Barts Pro」が150ドル〜160ドルの間、および「Barts XT」が200ドル以下の価格設定になるだろうと見ている。これは「Barts」が信じられないくらい一般向けのGPUカードとして提供される事になるが、現在のnVidiaの製品価格から判断し、これはあまりにも安すぎてnVidiaが提供するよりも速くて価格に上乗せすることが可能なより速いGPUカードをAMDが提供する場合その価格には期待できないだろう。

—-

AMDのBartsがメインストリーム向けGPUとして登場するということか。