Intelは開発中のLarrabeeをGPUとしてリリースすることを諦める – IDFでIntel GPU開発ディレクターが語る

xbitlabs.com Intel Unlikely to Release Larrabee As Discrete Graphics Processor – Company. Intel Admits Lack of Practicability with Larrabee Graphics Chip [09/16/2010 10:05 PM] by Anton Shilov より。

Intelは開発中のLarrabeeをディスクリートGPUとしてはリリースすることは疑わしい。

IntelはLarrabeeのグラフィックスチップとしての実現可能性を欠いていると認める。

By Anton Shilov
2010年9月16日

Intelは、Larrabeeアーキテクチャベースのディスクリートグラフィックスプロセッサとしてリリースする可能性はないだろうと、Intelアーキテクチャグループのグラフィクスアーキテクチャ部門のディレクターは語った。それに加え役員は、Larrabeeは最終的には性能と消費電力において能力不足という設計上の問題を抱えていると認めた。

「私は単に全てのソフトウエアの複雑性を眺めて全ての機能をソフトウエアで実行することを試行することは実用的ではないと思うだけだ。そして我々はこれらのことを行うためにワットあたりの性能問題にあたってしまった。」とIntelアーキテクチャ部門のグラフィックスアーキテクチャ開発ディレクターのThomas PiazzaはIntel Developer Forum(IDF)の期間中に語ったとTechradarウェブサイトは報告している。

Larrabeeグラフィックスプロセッサは現在のAMDやnVidiaグラフィクスチップに比べてより柔軟にプログラム可能な機能を備えた特徴のグラフィックスハードウエアであった。どうやらIntelはグラフィクスプロセッシングユニット(GPU)内に固定機能のブロックとプログラム可能なブロックとの間に最適なバランスを取ることに失敗した。例として、Intelはプログラマブルラスタライザ(様々なグラフィックスを表示するために様々なアプローチを提供することが可能)を内蔵しようと試行したが、結局大変な役立たずになってしまうという結果に終わった。

「私たちはプログラム可能な機能の適切なレベルと固定機能の適切なレベルを見つけ出そうと努力した。…当然の結果としてラスタライザは固定機能として必要であった。それがプログラム可能であるという必要性は何もない。プログラムコードの関連性を試したことでそのようなプログラム可能な機能の範囲は非常に小さかった」とPiazza氏は付け加えた。

2009年にIntelは,恐らく最初のLarrabee GPUとしてリリースされると思われる特徴のチップを載せたKnight Ferry development boardをリリースした。そのボードはハイパフォーマンスコンピューティング(HPC)や関連するアプリケーション向けに設計されたmany Intel cores(MIC)能力を確かめるソフトウエアディベロッパ向けであった。Knights Ferryは32個のx86アーキテクチャと1.2GHzクロックと4つのHyperThreadingを特徴としていた。そのユニットはPCI Express 2.0に差し込み、2GBのGDDR5メモリを搭載している。そのチップ自身は8MBの共有L2キャッシュを搭載し高並列アプリケーション向けには非常に興味をそそられるものであったがグラフィックスアプリケーションを実行するにはそのような大きなキャッシュメモリは必要無い。

もしIntelがLarrabeeベースのディスクリートGPU製品を将来出すと予想するかと尋ねられたとき、Piazzaは報道によると一言、「私はそうは思わない」と語ったという。

—-

ま、これまでのIntelのGPU関連の実績したら言わずもがなという感想のみ。だけどGPU全体の市場では過半数を占めるという普及率はすごい。

AMDの公式ブログで「Bulldozer」の20の質問パート3 懲りずにバカ訳

All of AMD Bulldozer 20 Questions, Part 3 September 13, 2010 by John Frueheより。

パート2はこちらから読めます。

AMDの公式ブログで「Bulldozer」の20の質問パート3

  • デュアルソケットでPCI Express x16 2スロット、x8 スロット、固体コンデンサもろもろついてパーツの頂点に立てるオーバークロック可能なマザーボードは出さないの?
    – David Hunt

    • 一般のシステムでは1ソケットバージョンなら可能だよ。
      2ソケットの一般向け市場は四半期毎に縮小しているんだ。デュアルコア(全部で4コア)が数年前にピークを迎えたけど、クアッドコア(4コア)CPUが根本から市場を乗っ取ってしまった。いま市場の残り少ない8コアで1ソケット市場が消えていくのが見えるだろう。去年の第4四半期には0.4%、全体の0.8%の市場にリソースを割くことは本当に難しいんだよ。
    • AMD Opteronはデュアルソケットシステムが可能だけど、君がさがしているオーバークロック可能な製品はないね。サーバ向けの顧客たちは手動でオーバークロックはしないから。彼らは確実な信頼性を求めているから。君が動作可能範囲を超えてCPUを動作させる(オーバークロッキングとはより高い周波数で動作させること)ことは可能だが、いくつかのリスクも背負わないと。
    • まず1番目に、CPUの使用可能寿命を減少させるよ。どのくらい減るかは全てのCPUで異なるから正確に言うのは難しい。だけどオーバークロックは潜在的な問題を増加させ、サーバーでは君が望まない動作をしてしまう。
      2番目に、君がオーバークロックして、君が予測しなかった2+2=5の結果が出る時もある。もしゲームをプレイしているのなら何の問題もないが、もし君がサーバーで自動システムを動作させて使うのなら現実の問題となり、ビジネス上の判断や金融情報に直接響くだろう。
    • AMD Opteronに「オーバークロック」のマーケティングは企業向けサーバ市場シェアには何の助けにもならない(やってしまうと確実に自殺行為だ)し、追求することもないだろう。
  • もし私が4ソケットBulldozerを使ってメモリにアクセスした場合、ローカルメモリへのアクセスとその他のCPUのローカルメモリアクセスとの間でNUMA(不均等メモリアクセス)アーキテクチャを採用したBulldozerでどのように、どのくらいの違いが出るのか?
    – Mikael Ronström

    • Non-Uniform Memory Access(NUMA)は各々のCPUが持っているメモリコントローラーとメモリバンク(ローカルアクセス)と共に利用可能だよ。CPUは同じシステムの他のCPUに接続しているメモリにアクセス可能(リモートアクセス)で、NUMAはそのようなアクセスを可能にするんだ。
    • かつて、4CPUシステムでは、いくつかのメモリは2ホップ離れていて、非常に大きなレイテンシを抱えていた。今日のAMD Opteron 4000と6000シリーズプラットフォームでは、HyperTransport技術により全てのリモートメモリを1ホップで充分呼び出せるよ。
    • それは私たちのメモリコントローラ強化で、まだ詳しくは話せないんだけど、私たちはローカルメモリとリモートメモリの両方でアクセス時間を減らすことができると予測しているよ。
    • HyperTransportによるアシスト機能は、6コアAMD Opteronから導入が始まり、既にメモリトラフィックの減少とリモートメモリアクセスのスピードアップを手助けしているよ。
    • 実際のメモリアクセス速度については、ローンチしたあとにね。
  • IntelのMulti-Threadingテクノロジとどのように、どれくらいのアドバンテージがあるか説明してもらえるかな?
    – Vygantas

    • 私たちは実際に、マルチスレッドを実コアに割り当てて使っているよ。Intelもまた同じだけど、彼らはHyperThreading技術をシングルコアで二つのスレッドを実行させているが、私たちはボトルネックが生じていると見ているよ。
    • HyperTthreadingの挑戦は実行パイプラインに2番目のスレッドに命令を実行させたときに性能ギャップが起きるんだよ。世界中で君が非効率的なアプリケーションを持っており、パイプラインにギャップを確認し、2番目のスレッドに実行させることができる。しかし、効率的なソフトウエアでは性能向上はほんの少しのみで、潜在的には結局本の少しか全く向上せずに終わってしまう。いくつかのアプリケーションでは実際にHyperThreadingを無効にする方がより性能が向上するため切ることを推奨しているんだよ。
    • 私たちは複数のコア、実際の物理的なコアでより大きなスケーラビリティにつなげているよ。非常に最適化されたシステムでは、各々のスレッドをそれぞれの整数演算コアに割り当てるために実行パイプラインと争わない。全てのコア群は等しく同じだからスレッドに優劣をつけることはシステムにオーバーヘッドを引き起こしてしまう。
    • 以下のようなシナリオを想定しよう。HyperThreadin機能を持つ4コアが4つ全ての物理コアでスレッドをハンドリングしたとしよう。いまあなたは5番目のスレッドを実行したい。既に動作中のコアにスレッドを割り当てると、2つのスレッドが同じ実行パイプラインを同時にシェアする必要があるためそのコアの処理スレッドは減少してしまうんだよ。または1サイクル待って、その他のコアが自由に使えるのを希望する? あなたが「ビッグコアとHyperThreadingコア」を持っている時たくさんの様々な判断をする必要があるが、AMDの世界では8コアか16コアが存在し、5番目のスレッドは単純に次の利用可能な物理コアに割り当てるだけだよ。これはより簡単でより拡張性の高いことだよね。
  • 御社のパートナーでBulldozerクラスのコアをサポートするコンパイラは何があるのか、またIntelのIntel ICCコンパイラはBulldozerのAVX命令群をサポートしているのか(あるいは以前のOpteronのようにCPUID経由で判別されないのか)?
    – Ivan

    • 私たちはBulldozerサポートを保証する全てのキーとなるコンパイラベンダーと作業しているよ。私たちはOpen64コンパイラをサポートするのにより多くの時間を割いているし、同じくらいPGI GroupGCC、そしてMicrosoftのコンパイラもサポートしているよ。
    • AVXは256bit浮動小数点演算を活用するためにはアプリケーションの再コンパイルが必要だね(それは競合相手も同じ)。
    • 私はICCコンパイラにはコメントできないけど、そのような質問について尋ねることは歓迎するよ。
  • どうか、何故二つの分割された整数演算コアがより巨大な一つの整数演算コアより良いのか説明してくれませんか? 例えば、もしそれぞれの整数演算コアに二つの論理演算ユニット(APU)と二つのアドレス生成ユニット(AGU)、16KBのL1キャッシュが存在し、もう一方には4つのAPUと4つのAGU、そして32KBのL1キャッシュが一つの整数演算コアに存在している場合はどうなるのででしょうか?理論的には、あなたはマルチスレッドプログラムでは同じ性能で、シングルスレッド性能では優れているになるようだけど。
    – Ryan

    • 私たちはそれについてたくさん尋ねられたよ。キーは、二つのより小さなコアの処理性能と競合する単一のコアはダイサイズと消費電力量が性能に比べて不釣合に大きくなってしまうことだ。Bulldozerにそれぞれのモジュールにいくつかのリソースを共有した二つのコアに対して一つの「ビッグコア」にすると酷い高値と大消費電力になってしまうだろう。
    • それは現実的に効果的に動作をさせるために私たちがしたことだ。シングルスレッドの性能については心配いらないよ。私たちは既にBulldozerのシングルスレッド性能は私たちの現在のコアアーキテクチャに比べて高いことを説明しているから。
    • 気に留めてほしいことは、私たちはイノベーションを提供し、未来に向けて進んでいるということだよ。2005年に私たちが最初のx86デュアルコアCPUを提供したとき、シングルコアのプロセッサの方が性能が高いという議論があったんだよ。
      a.) 彼らはより高いクロックを実現し、
      b.)アプリケーションソフトはマルチコアを実際には活用できないからとね。
      今その人達は何処に行ったんだい?
    • 私たちが最初の64bitのx86アーキテクチャを市場に提供しイノベーションをもたらしたとき、32bitアプリケーションがより良い性能だと言われたよ。
      彼らはその方がより速く、誰も2GB以上のメモリアクセスなんか必要無いとね。
      今その人達は何処に行ったんだい?
    • 今日のビジネスではあなたは風防から先を見通すことが可能で、そして将来やってくる技術の先に焦点を見定めるか、リアミラーから見える過去についてずっととらわれてしまうかどちらかだね。
    • ルールは今や変わっている。ちょうど彼らが過去に行なったように。AMDはイノベーションを続けていくだろう

—-

なんかカッコイーぞFrueheサン! いくつもある間違いを気がついたところだけ修正した。

AMDの次世代CPU「Bulldozer」の詳細情報がHot Chip22で公開される。

概要として、「Bulldozer」と「Bobcat」はx86コアを二つの市場向けにチューニングしている。

  • 「Bulldozer」は「Sandtiger」ミドルクラスサーバ・ワークステーション向けCPUから登場する予定。
  • 「Bobcat」はノートPCやクラウドコンピューティングのクライアント機向け。

  • 「Bulldozer」コアはモジュール形式。
  • 二つの4パイプラインコアが浮動小数点演算スケジューラと二つの128bitFMACを共有する。
  • 「Bulldozer」はGlobalfoundriesの32nm SOI技術により製造される予定。

  • 二つの4パイプラインコアが浮動小数点演算スケジューラと二つの128bitFMACを共有する。
  • IntelのシングルチップHyperThreadingよりスループットが向上。

  • これは今日のデスクトップでは浮動小数点演算のコード量は非常に少なく、共有浮動小数点演算スケジューラを導入することで消費電力を抑えることが可能。またダイサイズ減少に貢献している。
  • また二つの128bitFMACは組み合わせて256bitFMACとして利用可能。
  • 「Bulldozer」はダイナミックに各コンポーネントとの接続を切り替えることで最大限のワットパフォーマンスを実現。
  • それぞれのコアは共有L2キャッシュを搭載している。

  • それぞれのモジュールはHyperTransportバスを介して様々な構成のマルチコアプロセッサを組み上げることが可能。
  • 各コアは共有L3キャッシュと接続され、統合型メモリコントローラがその先に接続されている。

  • コアが33%増加すると50%性能アップ。これは同じ消費電力の現行CPU「Magny-Cours」(Opteron6000シリーズ)と比較した場合。
  • 2011年中に提供される予定。
  • 6000シリーズのサーバ向けプロセッサは12〜16コアで6〜8モジュール構成である。
  • 4000シリーズは4〜8コアである。
  • サーバ向けチップセットは現在の市場ではG34・C32ソケットを利用可能である。これらのプロセッサは置き換えるだけで性能向上やコア数増加が可能である。
  • 重要な強化点としてメモリコントローラが大幅なメモリ帯域増加を提供することである。

  • 2番目の整数演算コアを追加するのに全体の12%の回路のみで良い。
  • そしてチップレベルでは全体のダイサイズの5%の追加で可能となる。
  • また「Bulldozer」に内蔵されたデスクトップPC向けノースブリッジより低消費電力で発達し粒度の細かいクロックゲートを実現。
  • DDR3メモリが利用可能で、またAMDの「TurboCore」テクノロジによりプロセッサをオーバクロックさせるモードを搭載している。
  • デスクトップPC向けは4〜8コアの「Bulldozer」が採用されると予想される。
  • ソケットはAM3+となり、現行のAM2やAM3ソケットでは「Bulldozer」は対応しない。
  • なおAM2+、AM3 CPUはAM3+ソケットで利用可能。

  • AMD FusionAPU「Ontario」に搭載される「Bobcat」コアと接続図

  • ノートPC向け「Bobcat」コアはデュアルx86コアにアウトオブオーダ実行、低消費電力が特徴。IntelのAtomはインオーダ型。

IntelのHyperThreadingとAMD Modulesが競合技術になるのか。また現行のAM3では「Bulldozer」コアが使えないらしいので、新たなAMDチップセットが登場するかもしれない。

あと、AMD Hot Chip ニュースサイト向けプレスキットはこちらから。

追加でAMDの公式ブログで「Bulldozer」の20の質問ラウンド1が掲載開始。

  • いろんなコードネームのチップが合って混乱しているんだけどどうなの?
    • これ読んどけ。基本はコア数だ。
    • “Interlagos” – 16-core server processor
    • “Valencia” – 8-core server processor
    • “Zambezi” – 8-core client processor
  • Intelの製品と比べ、AMDの仮想化技術の利点は?
    • コア数で簡単に比較できるよ。Opteron6100を二つ使えばコア数は24個、なんで24VMが動作できる。
    • また共有L2キャッシュもいい感じ。
  • 「Bulldozer」とFusion APU「Ontario」は同じコアなの?
    • 違う。「Bobcat」コアをベースにした違う設計チップ。
  • 「Thuban」チップのように「TurboCore」に対応するの?
    • その通り。サーバ分野で初めて「TurboCore」を導入するよ。
  • 「Bulldozer」チップはサーバ分野ではどのようなインパクトがあるの?
    • いろんな視点があるけど、まずはモジュール構造の導入が挙げられる。
    • 他には性能向上と低消費電力。
    • また仮想化技術の一層の性能向上。

バカ訳ですみません。

続きのパート2はこちらから読めます