le4 parallel programming

課題2: 逐次版LU分解プログラムの高速化

課題1 で完成させたプログラムの高速化を試みる。LU分解を行うC言語の関数に対して高速化を試みる。元の関数は消さずに残しておき、速度比較ができるようにする。速度比較は行列のサイズ n の変化に対し，LU分解に要する時間がどう変化するか調べること。

以下にはさまざまな高速化手法を示すが、現在重要になっているのはキャッシュなどに関する局所性を高めることである。 TLBミス，キャッシュミスについて資料・説明や学科の講義に基づきよく理解しておくことが望ましい。

すくなくともキャッシュミスを減らすような形で高速化を行うことを必須とするが、すべての高速化手法を試す必要はない。余力がある場合、他の実験履修者の速度を上回りたい場合などに参考にすること。

並列プログラムのサンプルの最初の説明は高速化に関するものになっているので参考に．

試みの過程ではさまざまなバージョンの関数を作成することになるが，それらをコマンドラインの「-a N」の指定で切り替えられるようにする。「-h」とした場合に，「-a N」でどのバージョンが動作するかなどの説明を表示するようにしておく。未指定の場合は一番高速と期待できるものにしておく。
行列のサイズ n の変化に対し， LU分解に要する時間がどう変化するか調べること。例えば n として，100 から 1500 まで変化させてみる。 (shellスクリプトを用いてもよいだろう。) n^3の定数倍となっているか? それともそれ以外の変化が見られるか?
高速化手法には以下のようなものがある，これらは，ある場合には独立に，ある場合にはある順序で適用可能である:
- 多重ループの入れ子の交換
- 一時変数の導入，一時的な配列の導入
- 強さの軽減
- 行列の転置
- ループ・アンローリング
- より高度なアルゴリズム（ブロック化，再帰的アルゴリズム）
もちろん高速化手法はこれらに限らない。計算結果が正しければよいので，他の人より速いものを目指し，頭を使って高速化を試みてほしい。コンパイラがやるべき最適化が，最適化の適用条件を満たすか判断できないために適用できないことも多い。コンパイラによる最適化の「基本的な考え方」に基づくと新たな着想が得られるかもしれない。

浮動小数点演算

本演習・実験で用いる計算機システムでは，Intel 386 プロセッサ(と浮動小数点コプロセッサ387)の命令セットに基づくものになっている。実際のプロセッサは何世代も後継の Intel Core 2 Quad で， Core2 に基づくものになっているが，命令セットは同じと考えてもよい。浮動小数点演算はPentium 4 で追加されている SSE2，あるいは Prescott (Pentium 4 改良版)で追加されている SSE3 を用いたほうがよい可能性がある．SSE3を浮動小数点演算に用いるためには， gcc [その他のオプション] -msse3 -mfpmath=sse foo.c -o foo のようにする．逆に，SSE2(SSE3)を用いない場合は浮動小数点演算はレジスタスタックを用いているので，少し特別に考える必要がある。

Core 2 Quad 向けの最適化

ここの「インテルR 64 アーキテクチャーおよび IA-32 アーキテクチャー最適化リファレンス・マニュアル [日本語: PDF 形式 4,293 KB]」が詳しい。

もちろん、gcc に Core 2 Quad向けの最適化を指示することも有効であろう。計算機室のCore 2 Quad 3GHzの場合は、 -mtune=core2 を指定する。 (なお、gcc バージョン3.4以降にのみ -mtune があり、それ以前は -mcpu であった。また -march とすると指定したマシン(だけ)の命令を生成する。)

多重ループの入れ子の交換

```
for(j=0;j<1000;j++) for(i=0;i<1000;i++) a[i][j] += c;
```
を
```
for(i=0;i<1000;i++) for(j=0;j<1000;j++) a[i][j] += c;
```
のように入れ替える。いつも単純に入れ替えられるとは限らない(なぜか?)。
一般に，反復間に依存関係がある場合には，順序の変更によって依存関係が壊れてはいけない。
入れ替えると高速化されることがあるわけは高速化についての資料・説明を参考に。
LU分解の場合は、最外ループは場合分けに使ったので、内側の2重ループに着目。

一時変数の導入

例えば，ループ中で繰り返し同じ配列要素にアクセスしたり，それを元に繰り返し同じ計算を行ったりすることがある。
本来であれば，コンパイラがループ不変コードの移動としてそのアクセスや計算をループ外に移動させるべきである。つまり，コンパイラは， (できればレジスタなどに割り当てられる) 一時変数にデータを保存するようにして，同じアクセスや計算を繰り返すのを避けるべきである。
何らかの理由でそれができないことがあるので，プログラマの手によって明示的に書く必要がある場合がある。
例えば，
```
for(i=1;i<1000;i++) a[i] += b[j]*c;
```
は
```
double w = b[j]*c; for(i=1;i<1000;i++) a[i] += w;
```
などとできる可能性がある。
コンパイラがこれを行ってくれない理由としては， a[i] への書き込みの結果 b[j]のデータが書き換わるかもしれないと思った場合がある。特にC言語の場合，ポインタの存在のため，別々の式が同じデータの格納場所を表している場合 (つまり別名(alias)となっている) があり得るとコンパイラが考えることが多い。
総和を求める際には，部分和を保存する一時変数も考えられる。
実際に，コンパイルして得られるユーザプログラムがどのようなアクセス・計算を行っているかは，アセンブリ言語の出力コードを見て判断する必要がある。

強さの軽減

全く同じ計算がより高速にできる機械語命令があれば，プログラムにかかわらずコンパイラはそれを利用してよい。例えば，定数の掛け算をシフト演算と加算で行ったり， 2のべき乗の乗算・除算などを，シフト演算やビット毎の論理演算にしたりすることがある。
実際問題としては同じといえる計算が，コンパイラでは判断できないことがある。特に浮動小数点演算では，丸め誤差などの影響で (a+b)+c の計算結果は a+(b+c) の計算結果と全く同じにはならないことがある。
また，一般に割り算は掛け算より時間がかかる。割り算の代わりに逆数の掛け算とできないか?

一時的な配列の導入

時間的に連続してアクセスするデータが、空間的には不連続になってしまっていることがある。この場合、一時的な配列を導入して空間的に連続するように配置することで空間的局所性が高められる。
例えば、最内ループで k を 1ずつ増やしている場合に a[k][j] にアクセスすると、飛び飛びのアドレスになってしまう。もし、おなじjについて何度もアクセスするのであれば、 a[k][j] を各kについて集めた配列akj[]をつくり、 akj[k] でアクセスすればよい。

行列の転置

一時的な配列の導入でうまくいかない場合は、一時的な行列の導入も考えられる。
例えば、最内ループで k を 1ずつ増やしている場合に a[k][j] にアクセスすると、飛び飛びのアドレスになってしまう。もし、異なるjも含めて何度もアクセスするのであれば、 (高速化についての資料・説明でも述べたように) 2次元配列 a[][] を転置したデータを持つ 2次元配列 t[][] を準備し、 t[j][k] でアクセスすればよい。場合によっては、aを上書きする形で転置しても良い。
A, B の行列積の場合は、Bを転置するととても高速になる。 (試してみると良い)
一方、LU分解の場合は, Uのみ転置したい(あるいはLのみ転置したい) といった場合が多いと思われる。どうしたらよいか?

再帰的アルゴリズム

再帰的アルゴリズム(分割統治) により空間的局所性が高められる場合がある．
http://en.wikipedia.org/wiki/Cache-oblivious_algorithm
高い効果が期待できる。

ブロック化(blocking)

再帰まで用いなくても，部分行列単位で計算を進めることで空間的局所性が高められる場合がある．
高い効果が期待できる。
http://en.wikipedia.org/wiki/Locality_of_reference

ループ・アンローリング

数値計算ではループの繰り返し回数がループの実行を開始する時点で分かっていることが多い。このような場合はループ・アンローリングが適用できる。
例えば
```
for(i=0;i<2*n;i++) a[i] += 1.0
```
をアンローリングして
```
for(i=0;i<2*n;i+=2){a[i] += 1.0 ; a[i+1] += 1.0}
```
とすることができる。この例では繰り返し回数が偶数だったが、奇数にも対応するにはどうしたらよいか考えよ。また、ループの本体に2倍の処理が含まれるように展開したが、もっと大きくすることも考えられる。
ループ・アンローリングはコンパイラの最適化で行ってもよく gcc のコンパイル・オプションにもある。
ループ・アンローリングの効果として、終了判定の回数が減ることがある。またループ本体が大きくなり、アウトオブオーダ実行で同時に実行できる命令数が増やせる。 (分岐予測を考えるとアンローリングしなくても同じかもしれないが)

プリフェッチ

プリフェッチとは、近い将来アクセスする可能性の高いデータを前もってプロセッサの命令実行部の近くにとってくることを指す。とってくるのが完了するまで待たずに並行して計算は進めることができ、本当にアクセスが必要なったときのアクセス遅延を短縮できる。
[旧内容，以下のマニュアルでは，ソフトウェアプリフェッチについて Core2 の場合よりも Pentium 4 中心に述べられている ] Pentium 4 や Xeon の場合、ここの「インテルR 64 アーキテクチャーおよび IA-32 アーキテクチャー最適化リファレンス・マニュアル [日本語: PDF 形式 4,293 KB]」にあるように、とってきた後何度がアクセスするなら prefetcht0命令、一度しかアクセスしないなら prefetchnta命令が使える。これらは、gcc の拡張機能を用いると:
```
asm("prefetcht0 %0"::"m"(a[k+1][j]):"memory");
	   
```
のようにCプログラム中に記述することができる。ただし、
- Cプログラムの移植性に問題が生じる。
- 資源は消費するのでむやみにすると遅くなることも (投機的)
- Pentium 4 や Xeon の場合、単純なアクセスパターンについてはハードウェアにより自動的にプリフェッチが行われる。このためソフトウェアでの指示を要しないことも多い。

ソフトウェア・パイプライニング

ソフトウェア・パイプライニングとは、ループの本体を、本来異なる反復に属するコードから構成し直して、依存関係にある命令間の距離を広げて、その遅延に耐えるようにしたものといえる。例えば:
```
  for(i=0;i<n;i++) a[i] = b[i] + c[i];
```
は、
```
  for(i=0;i<n;i++) {
    t2 = b[i];
    t3 = c[i];
    t1 = t2 + t3;
    a[i] = t1
  }
```
であるが、bからの読み込みとcからの読み込みが終わらないと加算ができず、加算が終わらないとaへの書き出しができない。これを:
```
  for(...;...;i+=2) {
     s2 = b[i+1];
     s3 = c[i+1];
     t1 = t2 + t3
     a[i-1] = s1;
     if(i...) goto Lout;
     t2 = b[i+2];
     t3 = c[i+2];
     s1 = s2 + s3;
     a[i] = t1
  }
```
のような形にできれば、 bからの読み込みとcからの読み込みを一つ前の反復に移動、 aへの書き出しを一つ後のの反復に移動することができ、遅延に耐えることができる。もちろんプログラムの意味を変えないように、入口と出口で補正コードが必要であるが、省略した。
ソフトウェア・パイプライニングはループ・アンローリングと組み合わせても威力を発揮する。
IA-32の場合、ディフォルトでは，浮動小数点レジスタがスタックとなっているほう(387)の浮動小数点演算命令が使われるため，ソフトウェア・パイプライニングを用いるのが難しい。 Pentium 4 や Xeon の場合、 Pentium 4 で追加されている SSE2，あるいは Prescott (Pentium 4 改良版)で追加されている SSE3 を用いるとうまくいく可能性が高い． SSE3の使い方は上述した．

並列プログラミング, 先頭ページへ

Masahiro Yasugi: yasugi@kuis.kyoto-u.ac.jp