うわさ AMDの次世代GPU Radeon HD6700とHD6800のスペック表がリーク – 予想以上の性能向上を実現?

vr-zone.com UPDATED: [Rumour] AMD Radeon HD 6700 Specification Chart leaked Published on Monday, September 27 2010 1:19 am by Sub より。

噂 AMD RadeonHD6700のスペック表がリーク

PCinlifeフォーラムメンバーがRadeon HD5700シリーズと比較する目的のため登場予定のHD6700/HD6800のスペック表をリークした。最新のリーク情報はHD5700シリーズから激しくアップグレードされることを伺わせており、コードネーム「Barts XT」HD6770の特徴は320個の4VLIWシェーダクラスタで1280ストリームプロセッサ(SP)となる。特徴はHD5870と同じく256bitメモリインターフェース及び32レンダーアウトプットパイプライン(ROP)が特徴で、逆にTMUは80から46に減っている。コアクロックはとてつもなく高い900MHzで、これまでのディスクリートGPUで最も速いクロックスピードとなる。メモリクロックとメモリ帯域はHD5870に比べ下げられており、134.4GB/secとなる。「Barts Pro」HD6750は280シェーダクラスタ、もしくは1120SPで56TMUでクロックスピードはより下げられて750MHzであるが、メモリスピードは1GHzからたった50MHzしか下げられていない。ついでにクロックスピードはHD5850と同じである。

この表はまた「Barts」コアのSIMD構造についての詳細を暴露している。「Evergreen」シリーズのSIMDは16個の5VLIWシェーダクラスタで5シェーダが接続されており、トータルで80SPであった。それぞれのSIMDはまた4TMUにつながれていた。最上位製品である「Cypress XT」HD5870はまた20SIMD、320クラスタで1600SPおよび80TMUであった。最初のメジャーな変更点は、既に広く知られているが、それぞれのシェーダクラスタ構造である。いまや4シェーダしかない。だけれども、それぞれのクラスタは現在より効率的になっており、少ないダイサイズ中の面積にこれまでと同じかより向上した性能を実現する。それぞれのSIMDユニット数は現在奇妙にも20個の4VLIWクラスタからなる(通常ならば8・16・32…という数字が予想される)SIMDユニットあたりのトータルシェーダ数は同じ80異なるが、彼らは異なる改良を行なっており、故に「Barts XT」は64TMUを特徴としている。もしこれらのスペック表が本物だとしたら、HD6770は確実にHD5850の息の根を止める結果となり、最近の噂のとおり、性能はHD5870に非常に近くなる。これだけの効果のあるシェーダークラスターに感謝し、これらの性能全てが現在の「Cypress」より同じ40nmプロセスでの製造にかかわらず低消費電力でかつ小さなダイサイズで達成されることになる。これらの噂が本当か否かにかかわらず「マイナーな改善」という噂からとてつもなく大きな性能向上である。

もちろん、これらのリーク情報が非常に大きな塩の塊であるということを覚えていく事に価値はある。前の噂では960SP及び1120SPであるという内容であった。現在私たちはまた1280SPというリーク情報を受け取っている。明らかなのはこれらの全てが真実であるということは無く、もしくは全て嘘であるかもしれない。だがもしこれらのスペック表が偽物でも、よくできた噂であり口にするには丁度良い噂ではある。

参照元 PCinlife

更新

ChiphellのNapoleonにより、同じ表のフルバージョンがリークされた。二つの表は異なる情報元からでているが酷似しており、先程の情報源に比べこの表は確実性が非常に高い。フルバージョンの表では更に消費電力について詳細が記載されている。HD6770の消費電力はHD5700より上でHD5850より下であり、ほとんどのGPUを軽くけちらすだろう。HD6770は146W TDPであり、HD6750は丁度良い116Wである。アイドル時の消費電力はそれぞれ23Wと20Wである。このことはHD6770の消費電力は150W以下であり、二つのPCI Express電源コネクタであると考えるのが妥当であり、HD6750は一つだけであると簡単に推測できる。

AMDの次世代GPUの「Barts」のメモリコントローラについて妄想してみる

semiaccurate.com Northern Islands Barts benefits to moar, bigger? by Stephen Werner September 20, 2010 より。

概要は下記の通り。

  • AMD Radeon HD6770について非常に期待されているが、いったいどのくらいの価格帯なのか?
  • Radeon HD6770もしくは「Barts」は256bitメモリインターフェースと噂されているが従来のRadeonの価格帯では128bitが通例だった。
  • 製造コストを上げてまでAMDは256bitを採用するのか、HD5770「Juniper」の2倍の帯域が必要なのか見ていこう。
  • まずはRadeon HD5770のGPU動作周波数とメモリ周波数を調整する。Crysisと3DMark Vantageの数値から見ていく。実際にはDDR5のECCによる帯域への影響が結果として出るかもしれない。
  • メモリクロックをテストが失敗しない数値まで増加させた。結果数値は動かない。ベンチマークを他の日にもう一度動かしても数値は動かないので結果には自信がある。

Vantageは8.3%のメモリクロックまでで不具合を起こした。 **全体の合計より大きい点に注意

  • これらのテストではAMD PhenomII X4 3.2GHz、4GBメモリ、Windows7 64bitを使い、CPUのボトルネックが発生していないことを似たようなベンチマークを使って確認している。
  • 結果GPUのオーバークロックはメモリのオーバークロックより効果的であり、DDR5のECCによる帯域への結果は出ていない。結果として合計で35%の性能向上ができた。
  • 興味深い点はCrysisのスコアである。GPUとメモリのオーバークロックは個別にオーバークロックしたときの合計よりも性能向上につながる。
  • この結果からHD5770はバランスの良い製品であるという明快な結果が出た。

他のGPUでも試す。

  • HD4890は二つのチップを載せているが、DirectX11対応ではない。もちろんメモリコントローラも既に古い。
  • 理論的にはHD5770とHD4890の間にはメモリ帯域により20%の性能差がある。
  • HD4890をだしたのはメモリコントローラの違いを測定するためではなく、メモリ帯域がHD5770の76.8GB/secに対して124.8GB/secと67%大きい点で比べた。
  • 注意して表の数値を比べてみて欲しい。二つのGPUボードには20%の性能差がある。

  • 興味深い点はHD4890のメモリ帯域により性能が100%拡大しているわけではないところである。それでも30%〜40%の性能向上は見られるのだが、HD4890はHD4870よりメモリは遅い。
  • HD4870はHD5770より50%もメモリ帯域が大きいが、これ以上速いメモリが必要ではない。よってメモリを速くしても少ししか性能は上昇しない。
  • 更にnVidia Geforce 9600GTと9800GTで比較する。両方とも256bitメモリコントローラである。スペックか下記のとおり。

  • 9800GTは9600GTにほとんどの点で優っており、9800GTのテクセルフィルレートや浮動小数点演算能力は9600GTに比べ62%も上である。
  • メモリフィルレートは9800GTと9800GTXはほぼ同じである。
  • 一般的に9800GTは9600GTより15%性能が上であり、その結果メモリの帯域上昇による全体の性能上昇は小さいことがわかる。

メモリ帯域増加によるコスト

  • X-bit labsはRV770のメモリコントローラサイズを4,000万〜4,500万トランジスタと計算している。これはRV770の全体のトランジスタ数の5%未満である。
  • RV770とJuniperは似ている点があり、メモリ帯域が増加することによりトランジスタ数が増加していない点である。
  • この意味はJuniperのメモリコントローラが2,200万トランジスタか全体のトランジスタ数の2%前後であることがわかる。
  • ダイサイズに何が占有しているかはわからないが、一般的なメモリコントローラのトランジスタ密度を知らなくてもある程度のトランジスタ数を見積もることができる。
  • ポイントとして、「メモリコントローラーは128bitと256bitでダイサイズの影響は殆ど無い」ということである。
  • ダイサイズのコストはその大きさが小さくなると歩留まりが少しだけ上がる。もしPCB基板のコストが1層あたり10ドル上がるとした場合、コストの大半はPCB基板が占めるだろう。
  • 9800GTと9600GTを比較することにより、シェーダ数とテクスチャユニット数が性能向上に有効な点がわかる。メモリコントローラを2倍にしてもダイサイズ上では2%〜10%の間に留まるだろう。
  • シェーダ数とテクスチャユニット数の増加は性能向上もあるがダイサイズを大きくしてしまう。だがほとんどのコストを占めるPCB基板のコスト上昇は抑えられる。
  • 数多くの選択肢からどの道を行くのかを決めており、AMDとnVidiaは自身のパートナーの粗利を壊すことなく自身の粗利を確保しているだろう。
  • 歩留まりは予測され決定される必要があり、適切なコストは目標としている性能カテゴリの主要な要素であり、バランスが必要である。

「Barts」は256bitメモリコントローラか否か

  • 「Barts」の競合製品が何であるか思い出すことは非常に重要だ。それはnVidia Geforce 460GTXで、「256bitメモリコントローラ」を持っている。
  • AMDがそのような製品に128bitメモリコントローラを採用した製品で競争することは無いだろう。
  • 「Cayman」シリーズのDDR5メモリコントローラが「Barts」の1,600MHz(x4)であり、25%しかメモリ帯域が大きくない点がそれを示している。
  • もし40%以上のメモリ帯域を上乗せしても全体の性能は10%未満であろう。
  • 256bitメモリコントローラは確かに20%の性能向上をもたらす。
  • ただ確かな点は「Barts」は他のアーキテクチャ改善を行っているだろう。より多くのメモリ帯域は性能向上を提供するが、GPUとメモリクロックを一緒に上昇させたときの素晴らしい性能向上を思い出して欲しい。

最後に誰もが新しいアーキテクチャはダイサイズが小さくなるとメモリ帯域の制限により性能が制限されてしまうだろうと思うが、より大きなメモリコントローラは「Barts」シリーズに性能改善の多大なる貢献をするだろう。

AMDは同意しているかって?あと数週間でわかるよ。

—-

とりあえずスケジュールがHD5000シリーズ時より1ヶ月遅れているようなので2010年10月頃発表・月末販売開始か?

AMDの公式ブログで「Bulldozer」の20の質問パート3 懲りずにバカ訳

All of AMD Bulldozer 20 Questions, Part 3 September 13, 2010 by John Frueheより。

パート2はこちらから読めます。

AMDの公式ブログで「Bulldozer」の20の質問パート3

  • デュアルソケットでPCI Express x16 2スロット、x8 スロット、固体コンデンサもろもろついてパーツの頂点に立てるオーバークロック可能なマザーボードは出さないの?
    – David Hunt

    • 一般のシステムでは1ソケットバージョンなら可能だよ。
      2ソケットの一般向け市場は四半期毎に縮小しているんだ。デュアルコア(全部で4コア)が数年前にピークを迎えたけど、クアッドコア(4コア)CPUが根本から市場を乗っ取ってしまった。いま市場の残り少ない8コアで1ソケット市場が消えていくのが見えるだろう。去年の第4四半期には0.4%、全体の0.8%の市場にリソースを割くことは本当に難しいんだよ。
    • AMD Opteronはデュアルソケットシステムが可能だけど、君がさがしているオーバークロック可能な製品はないね。サーバ向けの顧客たちは手動でオーバークロックはしないから。彼らは確実な信頼性を求めているから。君が動作可能範囲を超えてCPUを動作させる(オーバークロッキングとはより高い周波数で動作させること)ことは可能だが、いくつかのリスクも背負わないと。
    • まず1番目に、CPUの使用可能寿命を減少させるよ。どのくらい減るかは全てのCPUで異なるから正確に言うのは難しい。だけどオーバークロックは潜在的な問題を増加させ、サーバーでは君が望まない動作をしてしまう。
      2番目に、君がオーバークロックして、君が予測しなかった2+2=5の結果が出る時もある。もしゲームをプレイしているのなら何の問題もないが、もし君がサーバーで自動システムを動作させて使うのなら現実の問題となり、ビジネス上の判断や金融情報に直接響くだろう。
    • AMD Opteronに「オーバークロック」のマーケティングは企業向けサーバ市場シェアには何の助けにもならない(やってしまうと確実に自殺行為だ)し、追求することもないだろう。
  • もし私が4ソケットBulldozerを使ってメモリにアクセスした場合、ローカルメモリへのアクセスとその他のCPUのローカルメモリアクセスとの間でNUMA(不均等メモリアクセス)アーキテクチャを採用したBulldozerでどのように、どのくらいの違いが出るのか?
    – Mikael Ronström

    • Non-Uniform Memory Access(NUMA)は各々のCPUが持っているメモリコントローラーとメモリバンク(ローカルアクセス)と共に利用可能だよ。CPUは同じシステムの他のCPUに接続しているメモリにアクセス可能(リモートアクセス)で、NUMAはそのようなアクセスを可能にするんだ。
    • かつて、4CPUシステムでは、いくつかのメモリは2ホップ離れていて、非常に大きなレイテンシを抱えていた。今日のAMD Opteron 4000と6000シリーズプラットフォームでは、HyperTransport技術により全てのリモートメモリを1ホップで充分呼び出せるよ。
    • それは私たちのメモリコントローラ強化で、まだ詳しくは話せないんだけど、私たちはローカルメモリとリモートメモリの両方でアクセス時間を減らすことができると予測しているよ。
    • HyperTransportによるアシスト機能は、6コアAMD Opteronから導入が始まり、既にメモリトラフィックの減少とリモートメモリアクセスのスピードアップを手助けしているよ。
    • 実際のメモリアクセス速度については、ローンチしたあとにね。
  • IntelのMulti-Threadingテクノロジとどのように、どれくらいのアドバンテージがあるか説明してもらえるかな?
    – Vygantas

    • 私たちは実際に、マルチスレッドを実コアに割り当てて使っているよ。Intelもまた同じだけど、彼らはHyperThreading技術をシングルコアで二つのスレッドを実行させているが、私たちはボトルネックが生じていると見ているよ。
    • HyperTthreadingの挑戦は実行パイプラインに2番目のスレッドに命令を実行させたときに性能ギャップが起きるんだよ。世界中で君が非効率的なアプリケーションを持っており、パイプラインにギャップを確認し、2番目のスレッドに実行させることができる。しかし、効率的なソフトウエアでは性能向上はほんの少しのみで、潜在的には結局本の少しか全く向上せずに終わってしまう。いくつかのアプリケーションでは実際にHyperThreadingを無効にする方がより性能が向上するため切ることを推奨しているんだよ。
    • 私たちは複数のコア、実際の物理的なコアでより大きなスケーラビリティにつなげているよ。非常に最適化されたシステムでは、各々のスレッドをそれぞれの整数演算コアに割り当てるために実行パイプラインと争わない。全てのコア群は等しく同じだからスレッドに優劣をつけることはシステムにオーバーヘッドを引き起こしてしまう。
    • 以下のようなシナリオを想定しよう。HyperThreadin機能を持つ4コアが4つ全ての物理コアでスレッドをハンドリングしたとしよう。いまあなたは5番目のスレッドを実行したい。既に動作中のコアにスレッドを割り当てると、2つのスレッドが同じ実行パイプラインを同時にシェアする必要があるためそのコアの処理スレッドは減少してしまうんだよ。または1サイクル待って、その他のコアが自由に使えるのを希望する? あなたが「ビッグコアとHyperThreadingコア」を持っている時たくさんの様々な判断をする必要があるが、AMDの世界では8コアか16コアが存在し、5番目のスレッドは単純に次の利用可能な物理コアに割り当てるだけだよ。これはより簡単でより拡張性の高いことだよね。
  • 御社のパートナーでBulldozerクラスのコアをサポートするコンパイラは何があるのか、またIntelのIntel ICCコンパイラはBulldozerのAVX命令群をサポートしているのか(あるいは以前のOpteronのようにCPUID経由で判別されないのか)?
    – Ivan

    • 私たちはBulldozerサポートを保証する全てのキーとなるコンパイラベンダーと作業しているよ。私たちはOpen64コンパイラをサポートするのにより多くの時間を割いているし、同じくらいPGI GroupGCC、そしてMicrosoftのコンパイラもサポートしているよ。
    • AVXは256bit浮動小数点演算を活用するためにはアプリケーションの再コンパイルが必要だね(それは競合相手も同じ)。
    • 私はICCコンパイラにはコメントできないけど、そのような質問について尋ねることは歓迎するよ。
  • どうか、何故二つの分割された整数演算コアがより巨大な一つの整数演算コアより良いのか説明してくれませんか? 例えば、もしそれぞれの整数演算コアに二つの論理演算ユニット(APU)と二つのアドレス生成ユニット(AGU)、16KBのL1キャッシュが存在し、もう一方には4つのAPUと4つのAGU、そして32KBのL1キャッシュが一つの整数演算コアに存在している場合はどうなるのででしょうか?理論的には、あなたはマルチスレッドプログラムでは同じ性能で、シングルスレッド性能では優れているになるようだけど。
    – Ryan

    • 私たちはそれについてたくさん尋ねられたよ。キーは、二つのより小さなコアの処理性能と競合する単一のコアはダイサイズと消費電力量が性能に比べて不釣合に大きくなってしまうことだ。Bulldozerにそれぞれのモジュールにいくつかのリソースを共有した二つのコアに対して一つの「ビッグコア」にすると酷い高値と大消費電力になってしまうだろう。
    • それは現実的に効果的に動作をさせるために私たちがしたことだ。シングルスレッドの性能については心配いらないよ。私たちは既にBulldozerのシングルスレッド性能は私たちの現在のコアアーキテクチャに比べて高いことを説明しているから。
    • 気に留めてほしいことは、私たちはイノベーションを提供し、未来に向けて進んでいるということだよ。2005年に私たちが最初のx86デュアルコアCPUを提供したとき、シングルコアのプロセッサの方が性能が高いという議論があったんだよ。
      a.) 彼らはより高いクロックを実現し、
      b.)アプリケーションソフトはマルチコアを実際には活用できないからとね。
      今その人達は何処に行ったんだい?
    • 私たちが最初の64bitのx86アーキテクチャを市場に提供しイノベーションをもたらしたとき、32bitアプリケーションがより良い性能だと言われたよ。
      彼らはその方がより速く、誰も2GB以上のメモリアクセスなんか必要無いとね。
      今その人達は何処に行ったんだい?
    • 今日のビジネスではあなたは風防から先を見通すことが可能で、そして将来やってくる技術の先に焦点を見定めるか、リアミラーから見える過去についてずっととらわれてしまうかどちらかだね。
    • ルールは今や変わっている。ちょうど彼らが過去に行なったように。AMDはイノベーションを続けていくだろう

—-

なんかカッコイーぞFrueheサン! いくつもある間違いを気がついたところだけ修正した。

AMDの次世代GPU「Barts XT」のボード画像がリーク – Radeon HD6700かHD6800かそれが問題だ。

AMD Barts XT Pictured Published on Friday, September 10 2010 10:19 pm by Sub より。

AMDの次世代GPU「Barts XT」のボード画像がリーク

今週中頃に、ChiphellのナボレオンはAMDのRadeon HD6000シリーズカードの画像を携えて戻ってきた。今回は「Barts」の番である。噂では大成功したRadeon HD5700シリーズであるという。お願いだから、これはただのエンジニアサンプル品であり、最終製品ボードとは異なることを心に留めておいて欲しい。それはまた隙間が多すぎてメモリなどすべてを冷やすことのできないGPUクーラーが物語っている。

最終製品バージョンのクーラーはPCB上に搭載され、それはデュアルスロットタイプであろう。そのカードは二つのDVI端子、一つのHDMI端子、そして二つのDisplayPort端子の様に見える端子軍が特徴である。「Barts XT」は二つの6ピンPCI-Express電源コネクタを搭載し、消費電力はおよそ150W前後であると示唆している。もちろん、二つの6ピン電源コネクタはテスト目的のただのプロトタイプであるという可能性もあり、最終製品カードではRadeon HD5770の様に多分たった1つの6ピン電源コネクタのみになるだろう。そのカードはHD5770よりも長く、HD5850に近い長さである。噂の256bitメモリインターフェースが有効なように見える。

カード裏はダイサイズが「Juniper」よりも大きいことを示唆している。それらの全てが示唆していることは、「Barts XT」がRadeon HD5770よりも確実に性能が向上しており、これは「Barts」がRadeon HD6700シリーズではなくHD6800シリーズとして発表されるだろうということだ。だけれども一つのミッシングリンクが存在する。それはCrosFireコネクタである。HDx8xxシリーズとは異なり、「Barts」は2つのGPUをCrossFireで接続するための一つのCrossFireコネクタしか備えていないという点である。

ソース元では、最終的な「Barts」カードは一般向けの製品として投入されるだろうと言及している。かれらはそれがRadeon HD6700シリーズかHD6800シリーズでブランディングされるかどうか含みを残しているように見える。確実に言えることは、Radeon HD6000シリーズはHD5000シリーズから少しだけ再設計されているだろうということである。

参照元 : TechPowerUp

—-

見た目もいかにもエンジニアリングサンプル品らしいボードだな。

うわさ AMDのノートPC向け次世代GPU「Blackcomb」はMobility Radeon HD6000シリーズのフラッグシップか?

vr-zone.com [Rumour] “Blackcomb” is AMD Mobility Radeon HD 6000 Series Flagship Published on Sunday, September 5 2010 1:18 am by Sub より。

DonanimhaberはAMD Mobility Radeon HD6000シリーズのコードネーム「Blackcomb」が陣頭を取るだろうというレポートを発表した。もちろん、「Blackcomb」はデスクトップ向けのチップベースで、おそらく「Barts」か「Cayman」のどちらかだろう。AMDはMobility Radeon HD5000シリーズには「Cypress」を完全にスキップし、Mobility Radeon HD5870には800SPで128bitメモリインターフェースの「Juniper」を充てている。「Blackcomb」は256bitメモリインターフェースが特徴だが、いくつかの機能ユニットが劇的に増加していると予測される。

これは「Blackcomb」が「Cayman」チップに似ているという必要性に意味はなく、おそらくいまだ「Barts」ベースであろう。だけれども、Radeon HD6700の性能を有する「Barts」は256bitメモリインターフェースを特徴とする噂があり、それはHDx700とHDx800の性能ギャップを埋めることになるだろう。それ故我々は「Juniper」が「Cypress」との差よりも「Barts」と「Cayman」との差はより小さいと予測することが可能である。

Mobility Radeon HD6000シリーズは結果として、シリーズ全体の性能を劇的に向上している。だけれどもノートPC向けGPUとして性能が常に制限をかけられる要因があり、私達は新しい製品がMobility Radeon HD5870よりも高い速度であると予測できない。だけれども未だに性能の大幅な工場になることは疑いようがないだろう。しれはまたUVD3やEyefinityを特徴としている。nVidiaは新しくアナウンスしたノートPC向けGeforce 400M製品群ではOptimus技術(GPUを動的に切り替えて消費電力や発熱量を抑える技術)や3D Visionを強くプッシュしており、AMDは競合技術を回答として発表するだろう。

参照元 : Donanimhaber

—-

ノート向けGPUにも劇的な性能向上の兆しが出てきているな。ノートPCが販売の主流の日本では流行るかもしれない。