le4 parallel programming

並列処理/並列化

マルチプロセッサ(マルチコア)とマルチスレッド

マルチプロセッサ(multiprocessor), マルチコア(multi-core)
- 複数のプロセッサ(コア)を持つ計算機(ハードウェア)
- Pプロセッサ(コア)で、理想的にはP倍の高速化
- 共有メモリ型並列計算機
- マルチプロセッサ(マルチコア)計算機上では、複数のプロセッサ(コア)がそれぞれpcやレジスタ(spを含む)を持ち、メモリについては共有して動作する。
- 共有されていないメモリでは， load命令などの実行によりあるアドレスの値を読み出す(read)と， store命令などの実行により最後にそのアドレスに書き込み (write)した値が読み出せる．
- 共有メモリ(shared memory)は，非常におおざっぱにいうと:
```
 +------------+  +------------+
 | processor  |  | processor  |  load命令, store命令などを実行
 +-----+------+  +------+-----+  (IA-32だとメモリオペランドで暗黙な場合が多い)
       |                |
     --+-------+--------+---
               |
        +------+------+
        |shared memory|          値の読み出し(read)，書き込み(write)を処理
        +-------------+
```
  のように考えることができる．あるプロセッサ(コア)がload命令などの実行によりあるアドレスの値を読み出す(read)と，他のプロセッサ(コア)を含めてstore命令などの実行により最後にそのアドレスに書き込み(write)した値が読み出せる．
- (実際には，アドレス毎に「最後」が異なったりする．)
手続き型プログラムにおけるプログラムの実行:
- 制御駆動実行 (control-driven execution)
- 制御点(実行点, pcの値に相当)の連なり(thread of control)
マルチスレッド (multiple threads/multithread)
- マルチプロセッサ(マルチコア) ≠ マルチスレッド
- 仮想プロセッサによるプログラミングモデル
  - マルチプロセス: 複数の仮想計算機
  - マルチスレッド: 複数の仮想プロセッサ
  - スレッドの数だけプロセッサがあるかのように見える
  - スレッドは実行時に生成可能．(プロセスと同様)
- 逐次処理による実行は単一スレッド(a single thread of control)による。
- 並列処理では複数のスレッドによる複数個の実行点がある。
- プロセッサ(コア)数以上のスレッドを生成可能．単一プロセッサ(コア)システムなら，単一プロセッサ(コア)が複数のスレッドをコンテキストスイッチしながら処理してもよい．
- その意味では、マルチスレッドは「並列処理(parallel processing)」というより「並行処理(concurrent processing) 」
- マルチスレッドで記述したプログラムは、うまくすれば，マルチプロセッサ(マルチコア)計算機上で並列処理されると期待できる。
様々な抽象レベルにおけるマルチスレッド
- ハードウェアレベル
  - 例えば Intel の Hyper-threading
  - プログラミングモデル上はマルチプロセッサ(マルチコア) とほぼ同じことも多い
  - スレッド生成命令を持つ場合もあり．
- OSレベル(カーネルレベル)
  - カーネルレベルスレッド． pc やレジスタ(spを含む)の値を持つ．
    注: 各スレッドは自分用の連続したスタック領域とそのためのスタックポインタ(sp)を別々に持つ必要がある。各スレッドに与えられるスタック領域のサイズに注意が必要。サイズの大きい配列などをスタック領域に確保しないように注意。
  - プロセス内で複数のスレッドを生成可能とする機能
    (システムコールを準備)
  - 場合によっては，仮想メモリを全部共有するプロセスのことも
    (例えば，Linux の cloneシステムコール)
  - 単一プロセッサ(コア)システムなら，マルチプロセスのスケジューリングと同様，時分割方式で複数のスレッドをスケジューリング
  - マルチプロセッサ(マルチコア)システムなら，各OSレベルのスレッドを複数プロセッサ(コア)を使ってスケジューリング．同時期に別のプロセッサ(コア)で実行されるスレッドは本当に並列実行
  - OSによっては，スレッドをどのプロセッサ(コア)で実行すべきか指定可能．
    Linux kernel 2.5.8以降なら sched_setaffinityシステムコールが利用可能。(man コマンドで sched_setaffinity を調べよ)
    各スレッドを特定のプロセッサ(コア)に対応させることで (移動のオーバヘッドが避けられ) (他のプロセスに邪魔されなければ) 並列実行の性能が安定することが多い。
    他に、スレッド数の同じプロセッサ(コア)数を用いるように希望することで、比較的安定した並列実行性能が得られることも多い。その場合は、pthread_setconcurrency が利用可能。 (man コマンドで pthread_setconcurrency を調べよ)
  - OSレベルのスレッドなら，あるスレッドが入出力のためのシステムコールの完了を待つような場合に，その間別のスレッドをスケジュールして実行するといったことが可能．
- ライブラリレベル
  - プログラミング言語の仕様自体には含まれないマルチスレッドの機能をライブラリが提供
  - ライブラリ利用者はpc やレジスタ(spを含む)の値は意識しなくて良い．
  - ユーザレベルスレッドライブラリ
    - ユーザレベルスレッド: システムコールを用いない方式
    - 利用のためのプログラミング・インタフェース(API)を提供
    - プロセスが実行しているユーザプログラム内でコンテキストスイッチする．
      ライブラリルーチンが pc やレジスタ(spを含む)の値を切り替えれば実現可能．ユーザレベルスレッドであっても、各スレッドは自分用の連続したスタック領域とそのためのスタックポインタ(sp)を別々に持つ必要がある。上述のスタック領域サイズに関する注意は同様。
    - システムコールと比較して高速なコンテキストスイッチが可能．
    - 時分割方式や，複数プロセッサ(コア)を使ったスケジューリング (本当の並列処理)は望めない
  - 一般のスレッドライブラリ
    - 利用のためのプログラミング・インタフェース(API)を提供
    - ユーザレベルスレッド，または，カーネルレベルスレッド，あるいは両方の使い分け
    - POSIX.1c threads (pthreads) の API が有名
- プログラミング言語レベル
  - プログラミング言語の仕様にスレッドが含まれる場合
  - 利用のためのプログラミング・インタフェース(API)を提供
  - Java言語など
  - コンパイルの結果、さまざまな形で実現可能(自由がある):
    - 一般のスレッドライブラリを利用したりして実現することも。
    - 複数の言語レベルスレッドが連結(融合)されたライブラリスレッドとして実現されることも。
    - ユーザプログラム内で複数のコンテキストを通常のデータとして明示的に管理する場合も。
    - ユーザプログラム内で複数のコンテキストを関数の呼出しやリターンを使って管理する場合も。
    - プログラミング言語レベルのスレッドであれば、必ずしも各スレッドにそれぞれ用の連続したスタック領域を持たせる必要はない。
- 設計レベル、応用プログラムレベル
  - プログラムを作成する過程で、複数のスレッドに分けるように設計するが、実際のプログラムでは、プログラミング言語レベルやスレッドライブラリレベルのスレッドをそれほどたくさん生成しない場合がある。
  - スレッドの生成・消滅のオーバヘッドを嫌う場合など
  - 例えば
    - 複数のスレッドを連結(融合)したスレッドのみを作成
    - 応用プログラムレベルの複数のスレッドのコンテキストを表す (管理する) スレッドキューなどのデータ構造をプログラムで扱い、少数のプログラミング言語やライブラリのスレッドのみを生成して、それぞれがスレッドキューなどから応用プログラムレベルスレッドを取り出して実行する。

pthread ライブラリ (POSIX.1c threads)

P(ピー)スレッドと発音することが多い
仕様は IEEE POSIX 1003.1c-1995
仕様はオンラインで公開はされていないので， man コマンドで次の関数の manual page を調べよ．
(2010: 計算機室のLinux にはなぜか日本語のページしかない． NPTLのみとなった影響か? )
- pthread_create
- pthread_join
- pthread_attr_init
- pthread_attr_setscope
- pthread_mutex_lock
- pthread_mutex_unlock
- pthread_cond_wait
- pthread_cond_broadcast
マルチプロセッサ(マルチコア)計算機で並列処理をするには pthread_attr_setscope で，PTHREAD_SCOPE_SYSTEM を指定する必要がある．
上述の pthread_setconcurrency にも注意。

Linux での pthread ライブラリ

LinuxThreads ライブラリ
- POSIX.1c threads を Linux 上で実現しようとしたもの．
- cloneシステムコールを利用
- POSIX.1c threads 完全準拠ではない
NPTL (Native POSIX Threads Library)
- LinuxThreads より新しい。問題点をいろいろ解決している。
- cloneシステムコールは利用
- futexシステムコールを新たに使うことにした。
計算機室の Linux については glibc 2.11.1 で、 pthreadライブラリとしては、NPTLとなっている。
LinuxThreads ライブラリとNPTLの違い、切り替え方は http://www.linux.or.jp/JM/ からman on WWW の pthreads で調べられるが，計算機室の Linux では LinuxThreads に切り替えられなくなった (2010年)
プログラミングにおける注意点:
- Cプログラムでは「#include <pthread.h>」
- コンパイルは: gcc -O2 -pthread foo.c -o foo
- 上述の sched_setaffinity や pthread_setconcurrency にも注意。 (並列化・高速化の例では利用せず)

スレッドによる並列プログラミング

新たなスレッドの生成 (thread creation)
スレッドの実行の完了(スレッドの消滅) (termination/completion)
スレッド間の相互排他 (mutual exclusion)
スレッド間の通信・同期 (communication/synchronization)

などを記述する。
スレッドの実行の完了についてはその自体を記述しなくても、新たなスレッドの生成の際に実行すべき処理が指定するので、その処理が完了したらスレッドの実行が完了するとすればよい。

新たなスレッドの生成
pthreadsなら pthread_create でスレッドの属性や実行すべき関数を指定
スレッド間の相互排他
- 複数のスレッドが同じデータに同時にアクセスするときに問題
  - 例えば，2つのスレッドが共にカウンタの値を1ずつ増やしたいとする．
    1. スレッド1によるカウンタ値のread (10とする)
    2. スレッド1によるカウンタ値のwrite (11を write)
    3. スレッド2によるカウンタ値のread (11とする)
    4. スレッド2によるカウンタ値のwrite (12を write)
    となればよいが，
    1. スレッド1によるカウンタ値のread (10とする)
    2. スレッド2によるカウンタ値のread (10とする)
    3. スレッド1によるカウンタ値のwrite (11を write)
    4. スレッド2によるカウンタ値のwrite (11を write)
    となれば，カウンタの値は半分しか増加しなくなってしまう．
- ロックを準備する
- ロックを獲得する(acquire)ことに成功するまで実行を先に進めないことにする．
- ロックは同時に一つのスレッドによってのみ獲得でき、すでにロックを獲得しているスレッドが存在する場合は、そのスレッドがロックを解放する(release)まで他のスレッドはロックを獲得できない。
- pthreadsなら pthread_mutex_lock でロックを獲得できるまで待ち， pthread_mutex_unlock でロックを解放
- 仕事がある単位で完了するまで他のスレッドを排除
- ただし，相互排他は協定によるものでロックを獲得せずにデータにアクセスするスレッドを排除できるわけではない
スレッド間の通信・同期
- 他のスレッドの完了を待つのは join という。 (pthreadsなら，pthread_join)
- より一般の通信・同期(待ち合わせ)は条件変数(condition variables)を使えば可能．
- 条件変数はモニタ(monitor)という考え方に基づく．
- 実行を再開できる条件が整うまで待ちたいスレッドは wait()を用いる。 (pthreadsなら，pthread_cond_wait)
  - wait()を実行したスレッドは自分自身を条件変数の待ち集合に入れて、ロックを解放し、休眠する。ロックは条件の確認とwait()の実行を，他のスレッドに邪魔されずに一括して行うために必要であり，条件確認前に獲得する．
  - 休眠をやめて実行を再開する際には、まずはそのロックを獲得することになる。 (さらに、(再び)再開の条件をチェックし，合わなければまた wait()する)
- 実行を再開でき(そうな)スレッドにそのことを伝えるには notify()または notifyAll()を用いる。 (pthreadsなら，pthread_cond_signal または pthread_cond_broadcast)
- notify()は、待ち集合の任意の一つのスレッド、 notifyAll()は、待ち集合のすべてのスレッドを起こす。 (待ち集合から取り除き、休眠状態を解除する)
- notify()/notifyAll() したスレッドがロックを解放するまでは、伝えられたスレッドはロックを獲得できないので先に進めない。
- 利用例は、pthread_cond_wait の manual page を参考に

台数効果(スピードアップ)

並列処理で得たい効果
理想的な台数効果とは Pプロセッサ(コア)で、P倍の高速化

競争(競合, race)

処理(計算)のうち並列化可能な部分(独立に処理できる部分)は，競争(race)がないことが一般には必要．
同時に実行が進む 2つのスレッド Thr1, Thr2 を考える．一般に:
- Thr1が読み出す範囲とThr2が書き込む範囲が重なるなら競争がある． (もしくはThr1 と Thr2 を入れ替えたもの)
- Thr1が書き込む範囲とThr2が書き込む範囲が重なるなら競争がある．
- Thr1が読み出す範囲とThr2が読み出す範囲が重なっても競争とはならない．
競争(race)を避けるには，まずスレッド間の相互排他が有効である．ただし，スレッド間の通信・同期の結果，競争がないケースも多い．

スレッド・セーフ関数とC標準ライブラリ

複数のスレッドが同時に fprintf で出力するような場合にスレッド間の相互排他(適当なロックについての pthread_mutex_lock/pthread_mutex_unlock )が必要であろう．なぜなら， FILE * に排他的アクセスする必要があるから．
実際には，C標準ライブラリのほとんどの関数では，プログラマが相互排他のためのpthread_mutex_lock/ pthread_mutex_unlock 呼び出しを書く必要はない．これは自動的に行われる．そのような関数をスレッド・セーフ関数という．なお，もともとスレッド・セーフな関数については相互排他はしない．
つまり，デバッグ時のfprintfの利用などは逐次プログラムと同じように書ける．ただし，複数回の呼び出しを「まとめて」出力したいときは， flockfile/funlockfile を使う必要がある．

分割統治型並列処理

fork-join型
問題(仕事, やるべき計算)をいくつかの部分に分割する。
場合によっては，入れ子に、あるいは、再帰的に分割する．
各仕事が独立に処理できれば幸い
分割した仕事毎にスレッドを生成 (fork)
とりまとめ役のスレッドが，分担させた仕事をする他のスレッドの完了を待つようにする．(join)
たとえば、スレッド1(thr1)が、スレッド2(thr2)を生成して一部の仕事を分担させ、さらに、スレッド3(thr3)を生成して一部の仕事を分担させた場合を図示すると以下のようになる:
```
               |
               |  fork     ｜
         fork  +-----+     ｜
         +-----+     |     ↓ t
         |     |     |
    thr3 |     |thr1 |thr2
         |     |     |
         +-----+     |
         join  +-----+
               | join
               |
```
分担させた仕事の完了は、joinを行うことで待つ。

また複数スレッドのfork-joinをまとめて考えると、以下のように考えられる(4スレッドで並列処理する例):

               |
               |  fork      ｜
      +-----+--+--+-----+   ｜
      |     |     |     |   ↓ t
      |     |     |     |
      |     |     |     |
      |     |     |     |
      +-----+--+--+-----+
               |   join
               |

パイプライン型並列処理

問題(仕事, やるべき計算)をいくつかの部分に分割し分割した仕事毎にスレッドを割り当てるが、仕事を進めるためには別のスレッドがある段階まで仕事を進めている必要がある場合など。
つまり、スレッド間に依存関係がある
例えば、現実の問題で考えると、 1枚目が問題番号1の答案用紙、 2枚目が問題番号2の答案用紙、... 4枚目が問題番号4の答案用紙という試験の答案用紙綴り4部(受験者A～D)を、問題番号毎のグループに分けたいとする:
```
[A1,A2,A3,A4], [B1,B2,B3,B4], [C1,C2,C3,C4], [D1,D2,D3,D4] 答案綴り4部

        ↓

[A1,B1,C1,D1], [A2,B2,C2,D2], [A3,B3,C3,D3], [A4,B4,C4,D4] 問題番号毎
```
4人でこの作業をすることを考えると、一つには各自が答案用紙1部をとり、それを問題番号毎に分けた場所においていくということが考えられる。 (分割統治型並列処理)
他には各自(P1さん、からP4さんとしよう) がある問題番号を担当することが考えられる。 P1さんは、答案用紙4部から1枚目を集めることにする:
```
[A1,A2,A3,A4], [B1,B2,B3,B4], [C1,C2,C3,C4], [D1,D2,D3,D4]

        ↓

[A1,B1,C1,D1]
      +
[A2, A3, A4], [B2,B3,B4], [C2,C3,C4], [D2,D3,D4]
```
P2さんは、答案用紙4部から2枚目を集めることにする:
```
[A2,A3,A4], [B2,B3,B4], [C2,C3,C4], [D2,D3,D4]

        ↓

[A2,B2,C2,D2]
      +
[A3, A4], [B3,B4], [C3,C4], [D3,D4]
```
同様に、P3, P4さんはそれぞれ3枚目, 4枚目を集めることにする。このままだと、P1さんの仕事が終了してから、 P2さんの仕事が開始できることになるが、工夫すればパイプライン的に仕事をすることができる。つまり、P1が1枚目を集めた答案綴りについは、すぐにP2が処理をすればよい。これを図示すると:
```
     P1
     |    
    [A1]    P2
     +----->|    
     |     [A2]    P3
    [B1]    +----->|
     +----->|     [A3]    P4
     |     [B2]    +----->|
    [C1]    +----->|     [A4]
     +----->|     [B3]    |
     |     [C2]    +----->|
    [D1]    +----->|     [B4]
     +----->|     [C3]    |
     |     [D2]    +----->|
            +----->|     [C4]
            |     [D3]    |
                   +----->|
                   |     [D4]
                          |
```
のようになる。

同期(待ち合わせ)

スレッドは、ある条件が成立するまで実行を停止して待つ必要があることがある。
また逆に条件が整ったら待っているスレッドに知らせてやる必要がある。
生産者消費者型同期
- 生産者スレッドが計算してデータを求める
- 消費者スレッドが、生産者が計算したデータを使って計算する
という関係にあるときは、生産者消費者型同期といい、データが計算済かを条件とすればよい。
- データと関係づけられた計算済フラグを準備し、フラグの真偽値で条件の成否を表す方式
- データ列のデータを順に生産するなら、データ列に関連付けられた計算済みのデータ番号を保持するカウンタを準備し、消費しようとするデータの番号とカウンタ値との比較により条件の成否を表す方式
などが考えられる。
上記のパイプライン型並列処理の一種。
バリア同期
- 考えている全スレッドがある段階まで計算を進めるのを待つ
- 互いにそれまでの計算結果を使って計算を進める
という関係にあるときは、バリア同期といい、全スレッドがある段階まで計算を進めているかを条件とすればよい。
- 一つの方式としては、各スレッドに計算がある段階に到達したことを表すフラグを準備し、全スレッドのフラグが切り替わったことを条件とすればよい。
  - バリア同期の度に極性を反転させればよい
  - 代表スレッドを設けて、条件確認を代表して行い、他のスレッドは代表スレッドが確認したことを条件としてもよい
  - pthreads の pthread_cond_wait、 pthread_cond_broadcast による同期の場合は、フラグアクセスを mutexロックを獲得して行う必要があるため、この二段階はあまり有利ではないかも。
  - 共有メモリ向けマクロを用いた場合はこちらがよい。
- 他の方式としては、ある段階に到達したスレッド数を保持するカウンタを設け、全スレッド数になったことを条件とすればよい。
  - 実際には、全スレッド数になったときは0にresetすればよい．
    ただし，pthreads で pthread_cond_broadcastで停止していたスレッドを起こした後に 0にリセットするなら同じカウンタを再利用できるが，共有メモリ向けマクロでは同じカウンタはそのまま再利用できない．なぜなら，まだ待っているスレッドがいるうちに，先に処理を進めたスレッドが再びバリア同期をとるために，カウンタを操作すると1度0にリセットしたという情報が失われるから．
  - 共有メモリ向けマクロでも，2つのカウンタを必ず交互に使うという手はある．
バリア同期を用いると、以下のような分割統治型並列処理は:
```
               |
               |  fork      ｜
      +-----+--+--+-----+   ｜
      |     |     |     |   ↓ t
      |     |     |     |
      |     |     |     |
      |     |     |     |
      +-----+--+--+-----+
               |   join
               |
               |  fork
      +-----+--+--+-----+
      |     |     |     |
      |     |     |     |
      |     |     |     |
      |     |     |     |
      +-----+--+--+-----+
               |   join
               |
```
以下のようにしてもよい。
```
               |
               |  fork      ｜
      +-----+--+--+-----+   ｜
      |     |     |     |   ↓ t
      |     |     |     |
      |     |     |     |
      |     |     |     |
      +-----+-----+-----+  ここでバリア同期
      |     |     |     |
      |     |     |     |
      |     |     |     |
      |     |     |     |
      +-----+--+--+-----+
               |   join
               |
```
- この考えを推し進めると、スレッド数を計算途中で増減することはやめ、各スレッドが自分の分担する仕事をこなすとともに、スレッド間で必要な同期をとっていくという並列実行方式が考えられる。このような方式は SPMD (Single-Program Multiple-Data) 型という。
- LU分解のようなループの並列化の場合は SPMD 型で計算を行うのがよいことが多い。
- SPMD 型では、各スレッドは自分のスレッド番号 (あるいはスレッド番号を含むスレッド固有のデータ構造へのポインタなど) を常に(関数引数などを用いて)保持するようにし、スレッド番号から自分の分担する仕事を決定すればよい。
相互排他のために，他のスレッドがロックを解放するまで待つのも，同期(待ち合わせ)の一種といえる． (wait()/notify()ではなく，lock()/unlock()を用いるが)

デッドロック(deadlock)

全てのスレッドが，それぞれある条件が成立するまで実行を停止して待つ状態になり， (条件を成立させるための実行を含め) 実行が全体としてなされなくなってしまった状態を デッドロックした状態という．
「全てのスレッド」とは「特定のグループ内全て」でもよい．
たとえば，2人の人間が，「寝るときは，起こされるまで寝る」としたとき，互いに相手を起こしたら自分は寝るという意図に反して 2人とも寝てしまったら，2人とも起られなくなってしまう．
たとえば，すでにロックを獲得しているのに，二重にロックを獲得しようとしたらデッドロックする． (ただし，同一スレッドであれば多重獲得を許すものならばOK)
この演習での計算ではデッドロックは避けなくてはならない．
特に複数のロックを獲得する場合には，その獲得順序を守ることでデッドロックを避けるのが有名なテクニックの一つ
デッドロックすると全てのスレッドが停止しているので，デバッガでステップ実行したくても実行対象がないという状況になり，デバッグは難しくなる． (静的解析でデッドロックの可能性を検出するという研究も多い)

機械語プログラムから見た共有メモリ

メモリコンシステンシモデル
- メモリコンシステンシモデル (memory consistency model)とは、ソフトウェアから見た共有メモリに関するハードウェアの振る舞いがどのようになっているかの仕様を定めたものである。 (一般にはソフトウェアから見たハードウェアの振る舞いを仕様としてきちんと定めることで、ソフトウェアの作成者(ハードウェアの利用者)とハードウェアの提供者(設計者、実現者)の間のインタフェースがきちんと定まることになる。その中でも共有メモリに関する仕様を定めたものがメモリコンシステンシモデル)
- 機械語プログラムから見た共有メモリは、大ざっぱにはこのように考えられることは述べた。
- 実際のハードウェアでは機械語プログラム上で、
  1. store addr1,data1 (addr1へのdata1のstore)
  2. store addr2,data2 (addr2へのdata2のstore)
  という順番の命令列となっていたとしても、 addr1 と addr2 が異なる場合は、共有メモリ上では、
  1. addr2へのdata2のwrite
  2. addr1へのdata1のwrite
  の順に処理されることがある。同様に:
  1. load addr1,reg1 (addr1からのレジスタreg1へのload)
  2. load addr2,reg2 (addr2からのレジスタreg2へのload)
  という順番の命令列となっていたとしても、 addr1 と addr2 が異なる場合は、共有メモリ上では、
  1. addr2 からの read
  2. addr1 からの read
  の順に処理されたり、
  1. store addr1,data1 (addr1へのdata1のstore)
  2. load addr2,reg2 (addr2からのレジスタreg2へのload)
  という順番の命令列となっていたとしても、 addr1 と addr2 が異なる場合は、共有メモリ上では、
  1. addr2 からの read
  2. addr1へのdata1のwrite
  の順に処理されたり、
  1. load addr1,reg1 (addr1からのレジスタreg1へのload)
  2. store addr2,data2 (addr2へのdata2のstore)
  という順番の命令列となっていたとしても、 addr1 と addr2 が異なる場合は、共有メモリ上では、
  1. addr2へのdata2のwrite
  2. addr1 からの read
  の順に処理されたりする場合が考えられる。このような順で処理されたとしても、単一プロセッサ(コア)システムならソフトウェアは気がつかない。 addr1とaddr2が一致するような場合だけ、「load命令などの実行によりあるアドレスの値を読み出す(read)と， store命令などの実行により最後にそのアドレスに書き込み (write)した値が読み出せる．」という性質が満たされれば十分だったからである。
- このような順序の入れ替わりが許されているモデルは:
```
 +------------+  +------------+
 | processor  |  | processor  |  load命令, store命令などを実行
 +-----+------+  +------+-----+
       |                |
 +-----+------+  +------+-----+
 |   buffer   |  |    buffer  | 異なるアドレスについては
 +-----+------+  +------+-----+ アクセス順を入れ替える可能性あり
       |                |
       |                |
     --+-------+--------+---
               |
        +------+------+
        |shared memory|          値の読み出し(read)，書き込み(write)を処理
        +-------------+
```
  と考えることができる。
- どのようなアクセス順の入れ替えが起こり得るかは、メモリコンシステンシモデル毎に異なる
- Pentium PRO以降のIA-32などのメモリコンシステンシモデルでは、
  - store後 store はその順でwrite
  - load後 load はその順でread
  - load後 storeはその順でread後write
  - store後 load は、 write後readだけではなく、 read後writeになる可能性あり
  - xchg命令や、lock付き命令など、 storeとloadが一体化した命令については、その前後のload, store などとの順序が保存される
- さまざまなメモリコンシステンシモデル
  - sequential consistency
  - SPARC-V8 の TSO
  - processor ordering
  - SPARC-V8 の PSO
  - weak ordering
  - release consistency
- 最近の命令セットには，その前後のメモリアクセス命令の実行完了順序を保証するための命令があり，メモリバリア命令などと呼ばれる．
compare-and-swap命令
- 複数のプロセッサ(コア)でほぼ同時にロックの獲得を試みる命令列を実行した場合，どのようにして最大1つのプロセッサ(コア)のみでそれが成功できるようにするか?
- 伝統的には test-and-set命令を使うと説明されることが多い．これは:
  1. ビットtest命令(メモリのあるビットを読み出し， 0か1かを判定)
  2. ビットset命令(メモリのあるビットに1を書き込む)
  を不可分(atomic)に行うというものである．(IA-32だと，bts命令)
- 書き込むデータはロックがかかっている状態を表す．
- ロックの獲得を試みた結果，ロックがかけられていない状態が読み出せれば，成功である．
- 一般には，1バイト，あるいは1ワードの読み出しと書き込みを不可分にできればよい． (命令セットによってはxchg命令，swap命令などがある)
- 近年は，より一般の不可分操作が可能なcompare-and-swap命令もしくは同等の能力を持つ「load-linked命令と，条件付store命令のペア」が提供されることが多い．
- compare-and-swap命令では，対象となるアドレス，元の値，新しい値が与えられると，対象となるアドレスの値が元の値と比較して等しいときにのみ新しい値でそのアドレスの値を置き換える．比較して異なっていた場合は置き換えを行なわない（あるいは最新の値に戻す）．これにより:
  - ロックの獲得
  - 不可分な加算
  - 早い者勝ちの書き込み
  などを試みることができ，比較結果により成功したかどうか分かる．
- スレッドライブラリなどでは compare-and-swapの機能は提供されないことが多いが，これがあれば様々な同期・不可分操作が可能となる．

ハードウェアから見た共有メモリ

メモリバンド幅
- メモリバンド幅とは，一秒当たり何バイト転送可能かなど
- プロセッサの能力，メモリバスの能力，メモリの能力などで決まる．
- マルチプロセッサ(マルチコア)で，プロセッサ(コア)数が増えると，メモリバスが飽和する(saturated)ことになりやすい． (メモリバスなどのバンド幅を使い切る)
キャッシュ
- 実際のハードウェアを上記のようなモデルのまま実現したのでは性能が出せない．
- ソフトウェアから見える意味的には上記のようなモデルのまま，ハードウェア独自の工夫をするのが普通である．
- 特に実際のプロセッサではキャッシュを持つことが普通．
- キャッシュがあることで，同じメモリアドレスのデータがあちこちに存在することになり，メモリコンシステンシモデルを満たすように，その間のデータが一致するようにする(コヒーレンスを維持する) 必要がある．コヒーレンスを維持には:
  - 無効化プロトコル (書き込み前に他のキャッシュを無効化)
  - 更新プロトコル (書き込み結果を他のキャッシュに反映)
  などがある．
- 偽共有(false sharing)
  - 複数プロセッサから同じアドレスの値にアクセスする場合， writeアクセスがあるとキャッシュの無効化などが必要となり高速にstoreすることは難しい．
  - こればデータを共有するためにしかたないことであるが，実際にはキャッシュの無効化などは 64Bといったキャッシュブロックを単位として行われるのでプロセッサ間で共有しないデータであってもたまたま近くにおいてしまうと，あたかも共有したかのようにアクセスが遅くなってしまう．これを偽共有(false sharing)という．
  - これを避けるには十分離れたアドレスにデータを配置する．場合によっては利用しない配列などを挟むことにする．
- アフィニティ
  - プロセッサは，なるべく自分の近くのキャッシュにあるデータを使って計算すると良い．
  - これから処理する仕事がいくつかある場合は，それがよく利用するデータに最近よくアクセスしているものを選ぶと良い．
  - 仕事の分割をする場合も，この点を考慮すべきである．

OSの役割

マルチスレッドのための仮想プロセッサ
- 上で述べたようにカーネルスレッドはそれぞれ仮想プロセッサで実行されているように見える．
- 機械語プログラムから見た共有メモリで述べたマルチプロセッサ(マルチコア)による共有について成立する性質は，カーネルスレッドに相当する複数の仮想プロセッサによる共有についても成立するようにする．
OSは以下の役割を持つがユーザプログラムにとっては透明である．
- スレッド間のコンテキストスイッチ
- ページフォールトの処理など
カーネルスレッドを実際のプロセッサ数より多く生成してもよいが，入出力待ちなどがないなら高速化にはつながらない．

Cプログラムから見た共有メモリ

正式には，C言語で扱うデータは変数の値や配列などのデータ構造の要素の値である．
マルチスレッド化されたCプログラムで，複数のスレッドが「同じ変数」の値や「同じデータ構造の要素」の値を読み書きするなら，「共有」となる．
Cの変数やデータ構造の要素は，コンパイルの結果，必ずしもメモリにとられるとは限らない．高速化のためにその値はレジスタに保持されるかもしれない． Cの変数などの値をレジスタではなくメモリに置くべきと判断するのは，その変数が他の関数からも(直接，あるいはポインタを使って) アクセスできる場合である．
Cコンパイラはマルチスレッド用には作られていないことが多い．通常，レジスタはスレッド間で共有されず，メモリは共有されるので， Cコンパイラがマルチスレッドを正式にサポートするなら，その変数が他のスレッドと共有されているようならメモリにとるようにすべきである．実際には，スレッド間で共有される場合は，ごく特殊な場合を除いて他の関数からも(直接，あるいはポインタを使って)アクセスできる形にプログラムが書かれているので問題はない．
しかし実際には，Cコンパイラは最適化のためにプログラムの意味を変えない範囲で変数アクセスの順序を入れ替えたりする．また，後から変数の値を書き込みしなおすといった理由や変数の値をレジスタにキャッシュしたなどの理由でアクセスを省略したりする．例えば，変数の値が変化するまで，繰り返し変数の値を読み出すようなCのプログラムを書いたとしても，実際には1回だけしかメモリからは読み出さず，後はレジスタ上の値を繰り返し利用することが起こり得る．

この結果，マルチスレッドについて考慮されていないCコンパイラを用いた場合に， Cプログラムの(仮想)実行主体から見たメモリモデルは以下のようになる:

 +------------+  +------------+
 | virtual C  |  | virtual C  | Cプログラムの(仮想)実行主体
 | processor  |  | processor  |
 +-----+------+  +------+-----+
       |                |
 +-----+------+  +------+-----+ コンパイラの最適化によって
 |  optimizer |  |  optimizer |  アクセス順を入れ替える可能性あり
 +-----+------+  +------+-----+  アクセスを省略する可能性あり
       |                |
 +-----+------+  +------+-----+
 |   buffer   |  |    buffer  | 異なるアドレスについては
 +-----+------+  +------+-----+ アクセス順を入れ替える可能性あり
       |                |
       |                |
     --+-------+--------+---
               |
        +------+------+
        |shared memory|          値の読み出し(read)，書き込み(write)を処理
        +-------------+

コンパイラによるアクセス順の変更やアクセス省略などが行われた後，さらにハードウェアが提供するメモリコンシステンシモデル上許されるアクセス順の変更などが行われることになる．コンパイラやハードウェアといった細かい点を見ないことにして， C言語レベルで共有変数や共有データ構造について考えたモデルは:

 +------------+  +------------+
 | virtual C  |  | virtual C  | Cプログラムの(仮想)実行主体
 | processor  |  | processor  |  (スレッド)
 +-----+------+  +------+-----+
       |                |
 +-----+------+  +------+-----+
 |   buffer   |  |    buffer  | アクセス順変更
 +-----+------+  +------+-----+ アクセス省略など
       |                |
       |                |
     --+-------+--------+---
               |
   +-----------+------------+
   | shared variables       |
   | shared data structures |
   +------------------------+

のようになる．ここで，アクセス順変更やアクセス省略は Cプログラムの(仮想)実行主体(スレッド)が単一であれば問題ないものであるが，複数である場合は問題になり得る．

C言語レベルで共有変数や共有データ構造を用いる場合にアクセス順変更やアクセス省略が問題になるのはスレッド間で同期をとったにもかかわらず，同期までに共有変数への書き込みが完了していない場合や，同期前に共有変数から読み出してしまう場合などがある．
他にはロックを獲得する前に共有変数へアクセスしてしまう場合やロックを解放する前までに共有変数へアクセスを完了していない場合がある．
スレッドライブラリ
- pthreadsライブラリでは，このようなアクセス順変更やアクセス省略が問題とならないようになっている．
- pthreadsライブラリでは，スレッド間の排他制御やスレッド間の同期のためのライブラリ関数を提供している．
- Cプログラムの(仮想)実行主体から見たメモリモデルでの，コンパイラの最適化によるアクセス順変更・アクセス省略についてはライブラリ関数呼出し境界を越えたコンパイラの最適化はなされないのが普通であるので問題ない．また，ハードウェアが提供するメモリコンシステンシモデル上許されるアクセス順の変更については，ライブラリ関数の中で適切なメモリバリア命令を用いればよい． (C言語ではその命令が用いられなくても，その部分は関数のコードはアセンブリ言語で記述して作成すればよい)
- よって pthreads ライブラリの利用者は，スレッド間の同期や排他制御に pthread関数を用いている限り，特殊な場合を除いてアクセス順変更やアクセス省略について考慮する必要はない．
- 特殊な場合とは，競争(race)がある場合である．それは，同期や排他制御を考慮しても，ある共有変数に値に同時期にアクセスするスレッドが2つ以上存在し，かつ，すくなくともその片方が書き込みアクセスである場合である．このような場合，微妙なタイミングにより結果が異なることになる．
- pthreads では，競争のあるプログラムについては結果を保証しないので，そのようなプログラムは書くべきではないとしている．
共有メモリ向けマクロ
- pthreadsライブラリでは，スレッド間の排他制御や同期を行うのに必ずpthread関数を呼び出さないといけない．特に，同期においては:
  - 同期成立を表現するための変数にアクセスするときには， mutexロックを獲得してから行う必要がある．
  - 待ち合わせのため wait() したり，知らせるために notifyAll()することを考えると，これらはカーネルスレッドのスケジューリングを伴う可能性がある
  という速度低下要因がある．
- C言語レベルのモデルを元に，アクセス順の保証やアクセスの非省略のためのプリミティブは，GNU Cコンパイラの拡張機能である拡張asm文に展開されるマクロで提供できる．
- そのような共有メモリ向けプリミティブマクロを準備した
  - 共有メモリ向けプリミティブマクロ (2009/7版 v0.44) xccmem044.h
  - 共有メモリ向けプリミティブマクロ (2010/1版 v0.45) xccmem.h (new: 2010.10.14更新)
  - 利用方法:
    - ヘッダファイルに指定(#include "xccmem.h")
    - コンパイルオプション: IA-32 については特になし．ただし最適化オプション(-O2)を指定しないといけない． (POSIX スレッドも作るので -pthread は必要か)
  - マクロの元になった共有メモリ向けプリミティブの説明
  - マクロ版共有メモリ向けプリミティブの説明
  - 追加したマクロ版共有メモリ向けプリミティブの説明
  - 共有メモリ向けプリミティブの利用例
  - 以前，以下の問題があったが，現在(2010～)の計算機室のLinuxでは gcc 4.4.3 となっており，この問題は解消された模様．
    共有メモリマクロが使っている volatile 型修飾子について計算機室の gcc4 (4.0.0) ではうまく扱えていない可能性があることが分かりました． (参考: http://www.jpcert.or.jp/sc-rules/c-dcl17-c.html )
    xread_int などを利用している場合， (対処a) atomic_read_int_to_finish_readに置き換えるか， (対処b) gcc version 3.4.3 を用いるか， (対処c) 対象となるデータのほうに volatile 型修飾子を使うか，などを試してみてください．課題提出済みのプログラムについては(c)によって測定を行っています． (2009/11/02)

命令レベル並列処理 (のキーワード)

スーパスカラ
- レジスタリネーミング(物理レジスタ数)
- アウトオブオーダ実行
プリフェッチ
ソフトウェア・パイプライニング
ループ・アンローリング

並列プログラミング, 先頭ページへ

Masahiro Yasugi: yasugi@kuis.kyoto-u.ac.jp