nVidiaはCUDAのx86アーキテクチャへの最適化にほとんど興味がない – アナリスト談

xbitlabs.com Nvidia Hardly Interested in Optimal Performance of CUDA on x86 Processors – Analyst. Despite CUDA x86 Cross-Compiler, Life of Programmers Will Not Get Easier [09/28/2010 07:49 PM] by Anton Shilov より。

nVidiaはCUDAのx86アーキテクチャへの最適化にほとんど興味がない – アナリスト談

CUDAのx86向けクロスコンパイラに反して、プログラマの生活はより良くはならないだろう。
Anton Shilov
2010年9月28日

nVidiaとPortland Groupは先週nVidia CUDAアーキテクチャからx86へ、又は逆にx86からCUDAへソフトウエアを開発することができる特別なコンパイラを登場させた。これはソフトウエア開発者が彼らのプログラムに広く互換性を保証し、高並列GPUアーキテクチャを活用できることを提案している。だけれども、ソフトウエアメーカの生活はより良くなることはないだろうと、Jon Peddie ResearchのAlex Herreraは語った。

異なるアプリケーションのため、これらにはスーパーコンピュータ分野も含まれるが、より高い性能を照らす光明があるにもかかわらずATI RadeonやnVidia Geforceのようなグラフィクスプロセッサのために作り直されることはない多くの理由がある。主な理由の一つは、これまでも使われているレガシーなコードがあり、既に業務で使用されているためほとんどど捨てることができない。コンパイラはPGIとnVidiaが共同でソフトウエア開発者にCUDAベースのソフトウエアをx86プラットフォームにアプローチすることでテストしてもらいたがっており、信頼度を測ってもらいたがっている。それにもかかわらず、十分に安定して動作しているが、CUDAベースのソフトウエアのx86アーキテクチャでの性能はほとんど最適化されていない、とHerrera氏は主張している。

GPUベースのnVidia PhysXがそうであるようにCUDAもまたSSE2等のSIMDインストラクションをサポートしていない。新しいコンパイラはAMD BulldozerやIntel Sandy Bridgeマイクロプロセッサで使われる予定のAVXのようなものもサポートしないだろう。その結果、アプリケーションソフトウエアはx86プラットフォームでは最高性能を発揮できないだろ。

「x86で動作するCUDAはCUDAを使用しないでx86アーキテクチャに最適化されたアプリケーションソフトより遅くなるだろう。そしてx86で動作するCUDAアプリケーションやFermiで動作するアプリケーションを動作させる開発者は、最初に簡便に最適化できるCUDA無しのx86プラットフォームのほうが他のCUDAベースのアプリケーションよりも速く動作するのを目撃するだろう。より大きな性能向上によるベンチマーク数値はnVidiaが多くの浮動小数点演算を多用するアプリケーションソフトウエアでCPUよりもGPUのほうがより速いと宣伝する目的で使用されるだろう。」とアナリストは語った。

最後に、特定の目的および一般向け商用ソフトウエアの設計者は異なるハードウエアのために異なるコードを実装する必要が出てくるだろうし、いくつかは既に行われている。


開発側の負担が大きくなるだけで誰も得をしないということだな、nVidiaのCUDAは。あくまでも宣伝用でしか無いと。

AMDとIntelのGPU統合型CPUのプレゼンバトルが来週行われる

All of AMD  AMD to Demonstrate Next Generation PC Experience Powered by AMD Fusion APU Codenamed “Zacate” September 10, 2010 by Steve Howard

semiaccurate.com Sandy Bridge for sale in early 2011 IDF 2011: Less than two weeks in by Charlie Demerjian September 12, 2010

xbitlabs.com AMD to Demonstrate CPU-GPU Chip Live Next Week. AMD to Spoil IDF with Zacate [09/10/2010 03:29 PM] by Anton Shilov より。

概要として、

  • IntelのIntel Developer Forum(以下IDF)が来週行われる。
  • そこで、IntelのGPU統合型CPU「Sandy Bridge」の技術解説が行われる予定。
  • さらにIntelの次世代チップセットはUSB3.0及びSATA 6Gbpsをサポートするとの噂。
  • それに対しAMDは「Bobcat」アーキテクチャベースのGPU統合型CPU「Zacate」の発表をIntelのIDF開催中にぶつける
  • AMDの「Zacate」はFusion APUのデュアルCPUで、18Wの低消費電力で動作する。
  • 「Zacate」のGPU部は、DirectX11にフル対応し、1080pを含むハードウエア動画再生機能UVD3、OpenCL、DirectComputeに対応。
  • 「Zacate」のダイサイズは100mm^2以下との噂がある。

両者の技術発表が楽しみ。IntelのGPUは何時まで経ってもDirectX11に対応できない分AMDに多少有利。まあIntelは多少なんぞ物ともせずにAMD含めて競合他社すべてに対し絶対的優位に立っているが。

AMDの次世代GPU Radeon HD6350の画像がリークされた ファンレスの低価格GPU?

AMDの次世代GPU Radeon HD6350の画像がリークされた。

hardware-infos.de AMD Radeon HD 6350 zeigt und lüftet sich より。

AMDの新しいGPU世代が遂に公開された。先日最初にHD6800及びHD6700の情報を集めることができたが、今日はHD6300シリーズの情報で、来年早々に登場するだろう。

ChiphellはHD6350と称する最初の画像と詳細を公開したが、低価格セグメントののRV910チップベース「Caicos」かどうかははっきりしない。前準備として、ダイサイズは70mm^2でありRV810よりも10%程大きく、それは現在HD5400シリーズで使われている。

HD6350は32ユニット×4つ(128SP)で64bitメモリインターフェースで、HD5450とHD5550の間に位置し、メモリクロックは650MHz、メモリクロックは800MHzでデフォルトで12024MB DDR3メモリを搭載してる。

HD 5450 HD 5550 HD 6350
チップコードネーム Cedar (RV810) Redwood (RV830) Caicos (RV910)
ダイサイズ 63 mm² 104 mm² 70 mm²
コアクロック 650 MHz 550 MHz 650 MHz
メモリクロック 800 MHz 800 MHz 800 MHz
シェーダユニット数 16×5D 64×5D 32×4D
演算能力 104 Gflops 352 Gflops 166 Gflops
メモリインターフェース 64bit DDR3 128-bit DDR3 64-bit DDR3
メモリ帯域 12.8 GB / s 25.6 GB / s 12.8 GB / s

表の出典はhardware-infos.deより。

「Caicos」は最新の低価格GPUチップの一つである。IntelのSandy BridgeアーキテクチャかAMDのBobcat、Fusion APUアーキテクチャのように見え、最近のFudzillaのレポートによれば中期的には低価格GPUチップは廃止になるとのことである。

—-

ハイクラスからローエンドまで綺麗に揃えてきたなAMD。これじゃ当分nVidiaは太刀打ちできないわ。

nVidiaのノートPC向けDirectX11対応GPU Geforce GTX400Mシリーズがフルラインナップで登場

anandtech.com NVIDIA 400M: DX11 Top to Bottom Solutions Now Available by Jarred Walton on 9/3/2010 12:02:00 AM より。

4gamer.net NVIDIA,ノートPC向けGPU「GeForce 400M」の新製品7モデルを一挙発表 ライター:宮崎真一 より。

概要として、

  • nVidia Geforce GTX480MはGF100のダウンクロック版。
  • 実際デスクトップ向けGTX465と同じコア数。消費電力(TDP?)は驚異の100W。
  • Optimusテクノロジでアイドル時のGPU消費電力は0Wだそうだが。
NVIDIA High-End 400M Specifications
GeForce GTX 480M GeForce GTX 470M GeForce GTX 460M
Codename GF100 GF104? GF104?
CUDA Cores 352 288 192
Graphics Clock (MHz) 425 535 675
Processor Clock (MHz) 850 1100 1350
Memory Clock (MHZ) 1200 1250 1250
Standard Memory Configuration GDDR5 GDDR5 GDDR5
Memory Interface Width 256-bit 192-bit 192-bit
Memory Bandwidth (GB/sec) 76.8 60 60
SLI Ready Yes Yes Yes

票の出典はanandtech.com

  • 対応技術 : DirectX11, OpenGL 4.0, PhysX, Optimus, CUDA, DirectCompute, OpenCL, H.264/VC1/MPEG2 1080p ハードウエア動画デコード, Blu-ray デコードフル対応。HDMI 1.4a対応。
  • 直接の競合はAMDのMobility Radeon 5800・5700・5600シリーズ。
NVIDIA Performance and Mainstream 400M Specifications
GeForce GT 445M GeForce GT 435M GeForce GT 425M GeForce GT 420M GeForce GT 415M
Codename GF104 and GF106? GF106? GF106? GF106? GF108?
CUDA Cores 144 96 96 96 48
Graphics Clock (MHz) 590 650 560 500 500
Processor Clock (MHz) 1180 1300 1120 1000 1000
Memory Clock (MHZ) 800/1250 800 800 800 800
Standard Memory Configuration DDR3/GDDR5 DDR3 DDR3 DDR3 DDR3
Memory Interface Width 128/192-bit 128-bit 128-bit 128-bit 128-bit
Memory Bandwidth (GB/sec) 25.6/60.0 25.6 25.6 25.6 25.6
SLI Ready No No No No No

票の出典はanandtech.com

  • これらのチップはすべてSLI非対応。
  • とりあえず300Mシリーズ比で平均40%の性能向上を果たしている。
  • Optimus技術を使っている会社はAcer、Asus、Dell、Lenovo、Samsung、Toshibaだが、IntelのSandy Bridgeが登場したら必要なくなる可能性がある。

—-

どうみてもノートPCに採用できる消費電力じゃないな。AMDのノート向けGPUチップは注文が殺到しているようだが…

IntelがOpenCL向けSDKを年度末に発表 ただしCPUのみを利用する

hardware-infos.com Intel springt auf den OpenCL-Zug auf より。

概要は下記の通り。

  • Intelが自社製品向けにOpenCL SDKを2010年末に提供すると発表した。
  • OpenCLはKhronos Groupによって策定されたヘテロジニアスアーキテクチャ向けパラレルプログラムライブラリ
  • ヘテロジニアスシステムとは、CPU+GPUという異なるアーキテクチャシステムの組み合わせのこと。現在のPC向けCPUは、コア毎に機能に違いのないホモジニアスアーキテクチャ。
  • Intelは自社のCPU向けにAVXやSSEに対応させたOpenCL SDKを提供する。これで15%前後性能が改善する。
  • 現在IntelはCPUとGPUが連動したSDKは提供する意向は見られない。
  • だが疑問点として、Sandy BridgeのようなGPU統合型CPUでOpenCLを実行する場合はGPUの機能を活用するのだろうか?

—-

AMDはFusion APUでOpenCL環境を提供するといううわさがあるんで、Intelも時期が来たら提供はするだろうけど積極的に推進することは当面無さそう。

うわさ IntelのGPU統合型CPU「Sandy Bridge」向けLGA-2011「Patsburg」チップセットはちょっとした驚きがあるかも

semiaccurate.com Intel’s Patsburg chipset comes with a few unexpected surprises Many not set in stone yet by Lars-Göran Nilsson August 12, 2010 より。

IntelのPatsburgチップセットはちょっとした驚きがあるかも

by Lars-Göran Nilsson

2010年8月12日

概要は下記の通り。。

  • 「Patsburg」チップセットは、GPU統合型CPU「Sandy Bridge」LGA-2011プロセッサ用のチップセット。
  • Intelは伝統的にデスクトップ向けとサーバ向けCPU「Xeon」向けは別々に開発している。
  • だが「Patsburg」チップセットはハイエンドデスクトップ及びミドルレンジサーバ向けとして発表されるかも。
  • そしてPCI ExpressコントローラはCPU内で別チップとして移動するかも。
  • LGA-2011は現在のLGA-1155とは違い、PCI Express 3.0対応を特徴とする。
  • AMDの次世代GPU「Southern Islands」ではPCi Express 3.0に対応する。
  • Intelのストレージインターフェースは10ポート 6Gbps SAS対応SATAを予定しているが、今のところSemiAccurateは新しいチップセットでは2〜3個の6Gbps SATAポート、3GbpsのSATA6個、そして6個のSASポートがチップセット内に独立したコントローラで接続されると見ている。
  • さらにIntelは4つのメモリーコントローラを提供し、さらに「Sandy Bridge」LGA-2011ではメモリ性能が劇的に改善された新しいリングバスを採用するとのこと。
  • CPUは多分QPIバスを利用するだろう。それはLGA-1155プラットホームの2倍のバス帯域を実現するだろう。
  • このことはデスクトップ向けと1チップXeon向けと同じチップセットをIntelが使用することを想像させる。
  • 4つのメモリスロットに15個のSATA/SASコネクタをマザーボードで提供し、EATX向けとしてはメモリスロットが少ない(EATXでは8スロットが一般的)。ATXではメモリスロットは4つだろう。
  • とりあえず信頼できる筋からのうわさだからね。

—-

斜め読みしたので間違いがあるかと。

PCI Express 3.0のバス帯域を実現するためにもチップセットバスをQPIを採用する必要がある点と、メモリコントローラも帯域性能重視でリングバスを採用するかもと言う点が重要かと。メモリがリングバス接続ということでレイテンシが気になるところ。IntelのCPUとAMDのディスクリートGPUは相性が良いw。

nVidiaの2010年第2四半期売上は第1四半期よりトータルで19%減少、GPU関連は29.5%減少。

xbitlabs.com Nvidia’s Graphics Chips and Core-Logic Revenue Drops 30% Weak Packaging Charges Continue to Hit the Company

jp.reuters.com 米エヌビディア第2四半期は赤字拡大、第3四半期は回復へ より。

概要として、

  • 2010年8月1日現在GPU関連の第2四半期売上は5億5,040万ドルで第1四半期7億8,090万ドルから29.5%の減少
  • Tesla等HPC関連とTegra・ロイヤリティ関連は増加したが、トータルでは19%の売上減少。
Nvidia Revenue Split for Q2 FY 2011 (in $ million)
Q2 FY2011 Q1 FY2011 Change
GPU Business (GeForce, IGP) $550.4 $780.9 -29.5%
Professional Solutions Business (Tesla, Quadro) $215.1 $189.7 +13.4%
Consumer Business (Tegra, royalties) $45.7 $31.2 +46.5%
Total $811.2 $1001.8 -19%

表の出典はxbitlabs.comから。

nVidiaやばいな。DirectX11対応GPUチップ出荷の遅れとライバルGPUチップの性能差がとうとう売上に影響し始めたようだ。さらに来年に向けてGPU統合型CPUがトレンドになるようだからかなり厳しいかも。

nVidiaは長期間生き残るためにx86テクノロジへの接近が必要である。アナリスト談w

xbitlabs.com Nvidia Needs Access to x86 Technology for Long-Term Survival – Analysts. Nvidia Should Explore “More Radical” Strategic Partnerships, Mergers [08/10/2010 05:07 PM] by Anton Shilov より。

概要としては、

  • 来年度発売のCPUはSystem On ChipsというAMD FusionやIntel Sandy BridgeのようなGPU統合型CPUが出荷される。
  • そのためデスクトップ向けGPU市場やサードパーティ向けチップセット市場が縮小してしまう。
  • 長期間nVidiaが生き残るためにはViaやQualcommのようなx86アーキテクチャやSoC技術を持っている会社と戦略的パートナーシップを結ぶか合併するかが必要になるかも。(アナリスト談w)
  • FTCとIntelの今回の和解で、AMD、nVidia、Viaは脅迫なしでパートナーシップや合併を自由に考えても良いとしている。
  • Viaもx86アーキテクチャの生産ライセンスを延長してもらったからnVidiaと一緒にSoCが製造可能かも。
  • さらにBroadcomやQualcommのような企業と組んでSoCの製造を模索したほうが良い。

というところだがいまさらAMDもIntelもnVidiaはいらないだろう。

Qualcommの携帯デバイス向けARMアーキテクチャSoC SnapdragonAMDの携帯端末部門を買収して作ったもので既に持っている、かつGlobalfoundriesの顧客(※英文)wで、nVidiaの携帯端末向けチップセットTegraの最高責任者はビーチで飲み物飲んでいるし。ViaはS3TCのライセンスだけでめしが食えるし、BroadcomもCrystal HDなどの技術持っているから提携はいらないだろう。今後。積極的にnVidiaが動かないとヤバイということか。

IntelがFTC(連邦取引委員会)と和解。VIAとnVidiaに勝利をもたらす…?

semiaccurate.com Intel settles with the FTC, Via and Nvidia win big Part 1: PCI busses, fabbing, and hens with baseball bats by Charlie Demerjian August 4, 2010

マイコミジャーナル Intelが連邦取引委員会と和解、競争阻害と不公正取引をめぐる訴訟 より。

簡単に概要のみを。

  • FTCとIntelの間で和解が成立した。
  • それはPCIバスなどに制限をかけることが不当競争行為に当たるということらしい。ただしPCI Express2.0では無さそう。
  • IntelのAtomや各種CPUに接続するPCIバスやPCI Expressの性能に制限をつけることを禁ずるという。
  • その結果、ディスクリートGPUカードを主力としているnVidiaは何を逃れてビジネスを続けられるということ。
  • またx86関連のIntel/AMDが所有している各種ライセンスや特許をVIAは2018年まで利用可能。その結果NanoなどのCPUビジネスは存続可能になる。
  • Intel Compilerで、Intel以外のCPUの場合最適化を行わず意図的にプログラムが遅くなるようにすることを今後止めること。

IntelはSandybridgeというAMD FusionAPUにあたるSoCを発表しているが、nVidiaが直接のビジネス上の障害に成りうるので和解は大勝利ということか。またVIAも当分はx86ビジネスを続けられるということ。AMDのCPUの件については、Intelのコンパイラで自社製品ではないものに最適化する必要はないけど、意図的に遅くするのはどうかと。Charlie氏の記事の翻訳はこちらからどうぞ。

AMDのGPU統合型CPU「Llano」がプロセス技術問題で市場投入が遅れる

xbit AMD Delays Roll-Out of “Llano” Processor Due to Process Tech Issues.AMD Postpones Launch of Microprocessor with Integrated Graphics より。

AMDのGPU統合型CPU「Llano」がプロセス技術問題で市場投入が遅れる。

32nmの絶縁体上のシリコンプロセス技術問題が原因で、AMDは同じシリコンダイに統合されたGPUとハイパフォーマンスCPUが統合されたコードネーム「Llano」のローンチを遅らせねばならないとした。AMDは遅延は2ヶ月だと発表した。

「”Llano” – よりハイエンドなクライアントPC市場向けに期待されているFusion APU(Acccelerated Prosessing Units) – は、積極的な顧客の反応を生み出している。だがしかし、”Ontario”の好評な市場の反応を受けて、期待された32nmの歩留まりカーブより遅くなり、我々は”Ontario”と”Llano”の生産ラインのタイミングを切り替えている。”Llano”プロダクション出荷はいまだ来年の最初の半年以内にできると予想される。」

とAMDチーフエグゼクティブのダーク・マイヤーは金融関係者との会話の間で話した。

AMDはLlano APUを売上を上げるため既に公式に2010年の第4四半期に2011年内の非常に早い段階に出荷を始めると予測していた。これはAMDがLlanoの設計と32nmSOI製造プロセスを融合させる問題を有しているかどうかはっきりしない。Llanoの設計にいくつかの設計に欠陥を有しているかまたプロセス自身に問題がある。AMDによればいくつかのケースで、商用出荷開始が2ヶ月ずれたことがあると述べている。

「我々は32nmプロセスの歩留まり率を上げる計画を立てている。…私たちは32nmの歩留まり率カーブを上げるためにもう少しだけ作業する時間をとる。その影響はLlanoの内部計画を2ヶ月という期間に変更することにした」とダーク・マイヤーは述べた。

報告される前に、AMD Llano APUは各々9.69mm~2のダイサイズの現在のマイクロアーキテクチャ(L2キャッシュ抜き)をベースとした4つのx86コアを有し、350万トランジスタ(L2キャッシュ抜き)で2.5W〜25W消費電力で、0.8V〜1.3V電圧で3.0GHz以上の周波数をターゲットにしている。そのコアは周波数や電圧を設計された温度設計範囲内で、必要に応じてプログラムが4つのコアを必要としない時やリソースのために必要とされない消費電力を調整してパフォーマンスをブーストしダイナミックに性能をスケールする。似たような複数のニュースソースによれば、Llanoの異なるバージョンのハイエンド時のデュアルコアは20Wから59Wまで変化する温度設定能力を有し、3コアか4コアのTDP(設計温度計画)は35W〜59Wに収まる。4つのx86を二つ一緒にしたメインストリームコアチップは30W温度設計内に収まり、低消費電力デュアルコアLlanoチップは20W TDPに収まる。Llanoは32nm SOIプロセス技術を使って作られるだろう。

AMD「Sabine」プラットフォームはまたコードネーム「Hudson」PCI Express グラフィクスポートI/Oコントローラーを内蔵し、USB16ポート、USB 3.0サポート(Hudson M3のみ)、RAIDをサポートしたSATA6ポート、ギガビットイーサネット、統合ビデオDAC・クロックジェネレータなどを有する。それに加えて「Sabine」プラットフォームはまたオプションで「Vancouver」シリーズGPUサポートを特徴とする。

AMDのライバルであるIntelは、2010年の第4四半期に次世代グラフィクスコアを内蔵した「Sandy Bridge」プロセッサの出荷開始を計画している。

ありゃりゃ、GPUとCPUの統合「Fusion」を提唱したAMDがIntelに製品出荷の先を越されるとは。