やはりデータ転送の効率化が高速化の決め手か

PS3で動作する世界最高速の密行列LU分解プログラム, 組込みZine

分散メモリ型並列計算機の並列プログラミングではright-looking法を用いるのがこれまでの定石だったが、小長谷研究室チームでは、あえて left-looking法を採用。各SPE(Synergistic Processor Element,単体性能25.6GFLOPS, 3.2GHz時)のメモリへのアクセス回数を最小化することにより、SPEを7基搭載するPLAYSTATION3において、理論ピーク性能 179.2GFLOPSの76.9パーセント(従来記録はIBMの75.9パーセント)にあたる137.8GFLOPSを達成した。
PS3で動作する世界最高速の密行列LU分解プログラムを公開, +D Games
小長谷研究室チームでは、新規にPDS(Plan Do See)サイクルと呼ばれるCell Broadband Engineのためのプログラム最適化戦略(この成果でCellスピードチャレンジ自由課題部門の第2位を受賞)を開発し、シミュレータと実機との性能差から性能を制限する要因(メモリアクセスのボトルネック、パイプラインハザードなど)を推察することで最適化コードの開発に成功した。

データ転送を最小化するにはleft-looking法か、そんなところまで発想が回らなかった。

記事だとプログラムが公開されると書かれているけど、いつ公開されるだろう。ドキュメントが出揃う7月上旬か?他のチームがどういう実装したのか気になる。

PLAYSTATION3で動作はするが、性能は東芝のCellリファレンスセットでのものなので記事だけ読むと紛らわしい。