ail3 parallel programming

高速化: ハードウェアについて

前節まで見てきたソフトウェアからみた計算機のモデルは、現在では仮想的といってよく、実際の計算機ハードウェアとは異なる点も多い。プログラム上でレジスタやメモリにアクセスしていても、実際のハードウェアではレジスタを介さずに演算器間でデータを授受したり、メモリバスまでアクセスせずにキャッシュを利用したりする。スーパスカラプロセッサでは命令の実行さえも無秩序な順序で (アウトオブオーダに)行われる。

レジスタアクセスを行うのに比べて、メモリアクセスが遅いのはすでに述べた。高速なプロセッサが次々開発されるのと比較して、メモリアクセスの遅延短縮や バンド幅向上はなかなか進まないでいる。このため命令実行部のできるだけ近くに容量は少なくてもよいので高速にアクセスできるデータの隠し場所( キャッシュ)を設けて、遠くの容量の多いメモリへのアクセスを省略する手法がとられる。キャッシュの状態から遠くにあるメモリの状態まですべてトータルでみて、前節まで見てきたソフトウェアからみた計算機のモデルにおける 物理メモリが実現される。(つまりソフトウェアが単純な物理メモリだと考えているものも、実際のハードウェアではキャッシュや 本当の物理メモリを組み合わせてそのイメージを仮想的に作り上げているのである。) ソフトウェアからみた計算機のモデルにはメモリのどの部分がキャッシュされているかどうかといったことは含まれない。しかし、デバイスから見たメモリとソフトウェアからみたモデル上のメモリの不一致が生ずる場合などに備えてキャッシュをフラッシュするようにソフトウェアから指示ができる。

キャッシュについても階層化して、命令実行部に近い最高速・小容量の1次キャッシュ、少し離れて遅くなるが容量が増えた2次キャッシュなどで構成されていることが多い。キャッシュは:

キャッシュ容量
ブロックサイズ
連想度(連想方式)
アクセス速度

で特徴付けられる。TLBが通常 フルアソシアティブなのに対し、キャシュの連想度は多くても8 程度で、 ダイレクトマッピング方式(連想度1)であることも珍しくない。

キャッシュミスを少なくしてプログラムの実行を高速化するには、TLBと同様にメモリアクセスの局所性をよくすればよい。キャッシュミスを少なくすることは高速化に際して非常に高い効果を持つ。TLB ミスの削減に関する議論がある程度成り立つので、以下では、TLBとの違いを述べたい。TLBでは管理するページが通常 8KB 程度なのに対し、キャシュのブロックは通常64B程度である。このため空間的局所性を生かすには同時期にアクセスするデータをしっかり接近させる必要がある。

また、連想度が少ないことにも注意が必要である。例えば、ダイレクトマッピング方式では、キャッシュの容量を S とすると: Sn+b (n=0,1,....) のアドレスのデータは、 b で定まるブロックにキャッシュされる。このため S だけ離れた複数のアドレスに頻繁にアクセスする場合、利用するキャッシュブロックの衝突が生じ、キャッシュミスが頻発することになる。このため、Cプログラムでの二次元配列の定義などでは、 S との独立性が高くなるように余裕をとることで高速化されることが多い。

Masahiro Yasugi