変更を加えるのをそろそろ終わろうと思う

Cellスピードチャレンジのための連立一次方程式のプログラムですが、まだいくつか高速化する方法が残っていると思うが、変更を加えるのをそろそろ終わろうと思う。

今のプログラムは32x32のブロックを使っているために、データ転送がネックになってしまっている。問題のサイズは32の倍数だけどパディングして64x64のブロックで処理すれば、そのデータ転送のネックは緩和されるとは思い、何度か64x64のブロック単位で問題を処理するプログラムを作ろうとしたけど、どうしてもうまくいかないので、諦めました。

残念ながら僕の負けです。現在の僕のチームのプログラムでは東工大の予選ラウンドのタイムに1問しか勝てません。