ail3 parallel programming

高速化: 概要

計算手順を表す プログラムが長くなると、人手による計算ではミスが生じやすい。また人手でデータを記憶するのもミスが生じやすい。計算の正確さのために計算機の利用が有効である。またたとえプログラムが比較的単純であったとしても、プログラムが扱う データ量や 操作回数が大規模になれば人手による計算は事実上不可能となる。そのような大規模な計算は計算機が得意とするところである。

通常、計算機ハードウェアは、 プロセッサがメモリに格納されている 機械語プログラムを決められた通りに実行するという機能しか持たない。計算機がシステムとして提供すべき高度な機能はソフトウェアにより実現される。通常、ソフトウェアを構成するプログラムは基本的には人が設計する。プログラムの作成には計算機システムが持つ既存のエディタやコンパイラなどの助けも受けられるが、プログラムの基本的な設計を自動的にかつ人と同程度に行う計算機システムは知られていない。

同じ内容の計算を速く実行する(つまり短い時間で計算を完了する)ためには、高速な計算機ハードウェアを使って計算すればよいのはもちろんであるが、計算機ハードウェアの種類がすでに決まっている場合は:

計算完了までの操作回数を少なくする。
個々の操作のコストを低くする。(処理時間を短くする)
複数の操作を並列に進める。(並列実行)

となるようにする工夫が考えられる。

「すでにプログラムが与えられたとき、それを同じ内容の計算をより速く実行するプログラムに変形する」ことを(実行速度について) 最適化するという。最適化は上記の工夫をすることになるが、いくつかの最適化手法は自動化可能でコンパイラの最適化フェーズなどで使われている。近年のスーパスカラのプロセッサでは命令の並列実行が自動的に行われるがそのための最適化も考えられる。 VLIWやマルチプロセッサ(マルチコア)向けに明示的に並列実行するようにプログラムを変形すること( 並列化) も、最適化の一種といえ自動化はそこそこ可能である。そのようなコンパイラは 自動並列化コンパイラと呼ばれ、複数のプロセッサ(コア)を持つ並列計算機向けとしてはHPFコンパイラなどが有名であるが、本実験・演習では、手動でマルチプロセッサ（マルチコア）計算機向けの並列化を行うこととする。

最適化するとしても、元となる最初のプログラムを作成する必要があり、すでに述べたようにプログラムの基本的な設計は計算システムではなく我々人間が行う。創意工夫により良いプログラムを考えなくてはならない。特に、 アルゴリズムをよくすることが最重要である。アルゴリズムとはある種類の問題が与えられたとき、有限の時間で正しい答を得るための曖昧な点のない計算手順のことである。アルゴリズムの計算量の議論では、ある一定の値 n_0 以上の大きさ n の問題を解いたときの計算時間がある定数 c を用いて cn 以下であるならば、 オーダが n であるといい、O(n)と表記する。同じ問題に対して別のアルゴリズムでは計算時間が定数 d を用いて dn^2 以下であるならば、O(n^2) と表記する。係数の c や d の値がいくらであっても、 n を十分に大きくすれば O(n) のアルゴリズムはO(n^2) のアルゴリズムより高速となるため、アルゴリズムの計算量の議論では係数の値は無視するわけである。

アルゴリズムのオーダを優れたものにできれば、次の段階では係数 c などを無視せず実際の計算時間を考えることになる。最適化の程度によっては、数倍以上高速になることも珍しくない。(最適化によりオーダが変わることもあるかもしれないが、それはよりオーダの優れたアルゴリズムがあるのに用いていなかったということに過ぎない。) 本実験ではオーダの改良だけではなく、係数の改良も含めた高速化を考える。係数の改良はオーダの改良と比べれば本質的ではないが、今日までのめざましい計算機システムの高速化は(アルゴリズム上の発見を除けば)基本的には係数が変わっただけであることにも注意したい。複数のプロセッサを用いた並列化も、基本的には P 台のプロセッサ（コア）を用いて係数を P 分の1にすることを目標とするものである。

Masahiro Yasugi