Chapter 10 Algèbre linéaire

Dans ce chapitre nous allons décrire quelques façons classiques de paralléliser certains calculs d'algèbre linéaire. Ceux-ci ont été particulièrement étudiés car de très nombreux codes scientifiques, requiérant une grande puissance de calcul, utilisent des calculs matriciels, de façon intensive.

10.1 Produit matrice-vecteur sur anneau

On cherche à calculer y=Ax, où A est une matrice de dimension n × n, x est un vecteur à n composantes (de 0 à n-1), le tout sur un anneau de p processeurs, avec r=n/p entier.

Le programme séquentiel est simple. En effet, le calcul du produit matrice-vecteur revient au calcul de n produits scalaires:

for (i=1;i<=n;i++)
  for (j=1;j<=n;j++)
    y[i] = y[i]+a[i,j]*x[j];

On essaie donc de distribuer le calcul des produits scalaires aux différents processeurs. Chaque processeur a en mémoire r lignes de la matrice A rangées dans une matrice a de dimension r × n. Le processeur P_q contient les lignes qr à (q+1)r-1 de la matrice A et les composantes de même rang des vecteurs x et y:

float a[r][n];
float x[r],y[r];

Le programme distribué correspondant à la parallélisation de cet algorithme séquentiel est:

matrice-vecteur(A,x,y) {
  q = my_num();
  p = tot_proc_num();
  for (step=0;step<p;step++) {
    send(x,r);
    for (i=0;i<r;i++) 
      for (j=0;j<r;j++)
        y[i] = y[i]+a[i,(q-step mod p)r+j]*x[j];
    receive(temp,r); 
    x = temp;
  }
}

Donnons un exemple des différentes étapes (boucle extérieure, sur step), pour n=8. La distribution initiale des données est donc comme suit:

P₀

æ
è

A₀₀	A₀₁	A₀₂	A₀₃	A₀₄	A₀₅	A₀₆	A₀₇
A₁₀	A₁₁	A₁₂	A₁₃	A₁₄	A₁₅	A₁₆	A₁₇

ö
ø

æ
è

x₀

x₁

ö
ø

P₁

æ
è

A₂₀	A₂₁	A₂₂	A₂₃	A₂₄	A₂₅	A₂₆	A₂₇
A₃₀	A₃₁	A₃₂	A₃₃	A₃₄	A₃₅	A₃₆	A₃₇

ö
ø

æ
è

x₂

x₃

ö
ø

P₂

æ
è

A₄₀	A₄₁	A₄₂	A₄₃	A₄₄	A₄₅	A₄₆	A₄₇
A₅₀	A₅₁	A₅₂	A₅₃	A₅₄	A₅₅	A₅₆	A₅₇

ö
ø

æ
è

x₄

x₅

ö
ø

P₃

æ
è

A₆₀	A₆₁	A₆₂	A₆₃	A₆₄	A₆₅	A₆₆	A₆₇
A₇₀	A₇₁	A₇₂	A₇₃	A₇₄	A₇₅	A₇₆	A₇₇

ö
ø

æ
è

x₆

x₇

ö
ø

A la première étape, chacun des p=4 processeurs considère les sous-matrices suivantes:

P₀

æ
è

A₀₀	A₀₁	·	·	·	·	·	·
A₁₀	A₁₁	·	·	·	·	·	·

ö
ø

æ
è

x₀

x₁

ö
ø

temp

æ
è

x₆

x₇

ö
ø

P₁

æ
è

·	·	A₂₂	A₂₃	·	·	·	·
·	·	A₃₂	A₃₃	·	·	·	·

ö
ø

æ
è

x₂

x₃

ö
ø

temp

æ
è

x₀

x₁

ö
ø

P₂

æ
è

·	·	·	·	A₄₄	A₄₅	·	·
·	·	·	·	A₅₄	A₅₅	·	·

ö
ø

æ
è

x₄

x₅

ö
ø

temp

æ
è

x₂

x₃

ö
ø

P₃

æ
è

·	·	·	·	·	·	A₆₆	A₆₇
·	·	·	·	·	·	A₇₆	A₇₇

ö
ø

æ
è

x₆

x₇

ö
ø

temp

æ
è

x₄

x₅

ö
ø

A la deuxième étape, les processeurs ont en mémoire les sous-matrices suivantes:

P₀

æ
è

·	·	·	·	·	·	A₀₆	A₀₇
·	·	·	·	·	·	A₁₆	A₁₇

ö
ø

æ
è

x₆

x₇

ö
ø

temp

æ
è

x₄

x₅

ö
ø

P₁

æ
è

A₂₀	A₂₁	·	·	·	·	·	·
A₃₀	A₃₁	·	·	·	·	·	·

ö
ø

æ
è

x₀

x₁

ö
ø

temp

æ
è

x₆

x₇

ö
ø

P₂

æ
è

·	·	A₄₂	A₄₃	·	·	·	·
·	·	A₅₂	A₅₃	·	·	·	·

ö
ø

æ
è

x₂

x₃

ö
ø

temp

æ
è

x₀

x₁

ö
ø

P₃

æ
è

·	·	·	·	A₆₄	A₆₅	·	·
·	·	·	·	A₇₄	A₇₅	·	·

ö
ø

æ
è

x₄

x₅

ö
ø

temp

æ
è

x₂

x₃

ö
ø

Puis à la troisième étape:

P₀

æ
è

·	·	·	·	A₀₄	A₀₅	·	·
·	·	·	·	A₁₄	A₁₅	·	·

ö
ø

æ
è

x₄

x₅

ö
ø

temp

æ
è

x₂

x₃

ö
ø

P₁

æ
è

·	·	·	·	·	·	A₂₆	A₂₇
·	·	·	·	·	·	A₃₆	A₃₇

ö
ø

æ
è

x₆

x₇

ö
ø

temp

æ
è

x₄

x₅

ö
ø

P₂

æ
è

A₄₀	A₄₁	·	·	·	·	·	·
A₅₀	A₅₁	·	·	·	·	·	·

ö
ø

æ
è

x₀

x₁

ö
ø

temp

æ
è

x₆

x₇

ö
ø

P₃

æ
è

·	·	A₆₂	A₆₃	·	·	·	·
·	·	A₇₂	A₇₃	·	·	·	·

ö
ø

æ
è

x₂

x₃

ö
ø

temp

æ
è

x₀

x₁

ö
ø

Enfin à la quatrième étape:

P₀

æ
è

·	·	A₀₂	A₀₃	·	·	·	·
·	·	A₁₂	A₁₃	·	·	·	·

ö
ø

æ
è

x₂

x₃

ö
ø

temp

æ
è

x₀

x₁

ö
ø

P₁

æ
è

·	·	·	·	A₂₄	A₂₅	·	·
·	·	·	·	A₃₄	A₃₅	·	·

ö
ø

æ
è

x₄

x₅

ö
ø

temp

æ
è

x₂

x₃

ö
ø

P₂

æ
è

·	·	·	·	·	·	A₄₆	A₄₇
·	·	·	·	·	·	A₅₆	A₅₇

ö
ø

æ
è

x₆

x₇

ö
ø

temp

æ
è

x₄

x₅

ö
ø

P₃

æ
è

A₆₀	A₆₁	·	·	·	·	·	·
A₇₀	A₇₁	·	·	·	·	·	·

ö
ø

æ
è

x₀

x₁

ö
ø

temp

æ
è

x₆

x₇

ö
ø

En notant t_a le temps de calcul élémentaire, t_c le temps de communication élémentaire, on se propose d'estimer le temps de calcul de cet algorithme, donc de mesurer ses performances.

Il y a p étapes identiques dans cet algorithme, chacune de temps égal au temps le plus long parmi le temps de calcul local et le temps de communication: max(r² t_a,b+rt_c). On obtient donc un temps total de p*max(r² t_a,b+rt_c). Quand n est assez grand, r² t_a devient prépondérant, d'où asympotiquement un temps de n²/pt_a. C'est-à-dire que asymptotiquement, l'efficacité tend vers 1 !

Remarquez que l'on aurait aussi pu procéder à un échange total de x au début.

10.2 Factorisation LU

On cherche maintenant à résoudre un système linéaire dense Ax=b par triangulation de Gauss. Un programme séquentiel qui implémente cela est:

for (k=0;k<n-1;k++) {
  prep(k): for (i=k+1;i<n;i++)
    a[i,k]=a[i,k]/a[k,k];
  for (j=k+1;j<n;j++)
    update(k,j): for (i=k+1;i<n;i++)
      a[i,j]=a[i,j]-a[i,k]*a[k,j];
}

On le parallélise en distribuant les colonnes aux différents processeurs. On va supposer que cette distribution nous est donnée par une fonction alloc telle que alloc(k)=q veut dire que la kième colonne est affectée à la mémoire locale de P_q. On utilisera la fonction broadcast, pour faire en sorte qu'à l'étape k, le processeur qui possède la colonne k la diffuse à tous les autres.

On va supposer dans un premier temps que alloc(k)=k. On obtient alors:

q = my_num();
p = tot_proc_num();
for (k=0;k<n-1;k++) {
  if (k == q) { 
    prep(k): for (i=k+1;i<n;i++)
      buffer[i-k-1] = a[i,k]/a[k,k];
    broadcast(k,buffer,n-k); 
  }
  else { 
      receive(buffer,n-k);
      update(k,q): for (i=k+1;k<n;k++)
        a[i,q] = a[i,q]-buffer[i-k-1]*a[k,q]; }
}

Dans le cas plus général, il faut gérer les indices dans les blocs de colonnes. Maintenant chaque processeur gère r=n/p colonnes, avec des indices locaux:

q = my_num();
p = tot_proc_num();
l = 0;
for (k=0;k<n-1;k++) {
  if (alloc(k) == q) {
    prep(k): for (i=k+1;i<n;i++)
      buffer[i-k-1] = a[i,l]/a[k,l];
    l++; }
  broadcast(alloc(k),buffer,n-k);
  for (j=l;j<r;j++)
    update(k,j): for (i=k+1;k<n;k++)
      a[i,j] = a[i,j]-buffer[i-k]*a[k,j]; }

Cet algorithme présente néanmoins un certain nombre de défauts. Premièrement, le nombre de données varie au cours des étapes (il y en a de moins en moins). Ensuite, le volume de calcul n'est pas proportionnel au volume des données: quand un processeur a par exemple r colonnes consécutives, le dernier processeur a moins de calcul (que de données) par rapport au premier. Il faudrait donc trouver une fonction d'allocation qui réussisse à équilibrer le volume des données et du travail! Cet équilibrage de charge doit être réalisé à chaque étape de l'algorithme, et pas seulement de façon globale.

10.2.1 Cas de l'allocation cyclique par lignes

Pour p=4, et n=8 on a la répartition initiale des données comme suit:

æ
ç
ç
ç
ç
ç
ç
ç
ç
ç
ç
è

P₀	P₁	P₂	P₃	P₀	P₁	P₂	P₃
A₀₀	A₀₁	A₀₂	A₀₃	A₀₄	A₀₅	A₀₆	A₀₇
A₁₀	A₁₁	A₁₂	A₁₃	A₁₄	A₁₅	A₁₆	A₁₇
A₂₀	A₂₁	A₂₂	A₂₃	A₂₄	A₂₅	A₂₆	A₂₇
A₃₀	A₃₁	A₃₂	A₃₃	A₃₄	A₃₅	A₃₆	A₃₇
A₄₀	A₄₁	A₄₂	A₄₃	A₄₄	A₄₅	A₄₆	A₄₇
A₅₀	A₅₁	A₅₂	A₅₃	A₅₄	A₅₅	A₅₆	A₅₇
A₆₀	A₆₁	A₆₂	A₆₃	A₆₄	A₆₅	A₆₆	A₆₇
A₇₀	A₇₁	A₇₂	A₇₃	A₇₄	A₇₅	A₇₆	A₇₇

ö
÷
÷
÷
÷
÷
÷
÷
÷
÷
÷
ø

A k=0:

æ
ç
ç
ç
ç
ç
ç
ç
ç
ç
ç
è

P₀: p₀; b	P₁	P₂	P₃	P₀	P₁	P₂	P₃
U₀₀	A₀₁	A₀₂	A₀₃	A₀₄	A₀₅	A₀₆	A₀₇
L₁₀	A₁₁	A₁₂	A₁₃	A₁₄	A₁₅	A₁₆	A₁₇
L₂₀	A₂₁	A₂₂	A₂₃	A₂₄	A₂₅	A₂₆	A₂₇
L₃₀	A₃₁	A₃₂	A₃₃	A₃₄	A₃₅	A₃₆	A₃₇
L₄₀	A₄₁	A₄₂	A₄₃	A₄₄	A₄₅	A₄₆	A₄₇
L₅₀	A₅₁	A₅₂	A₅₃	A₅₄	A₅₅	A₅₆	A₅₇
L₆₀	A₆₁	A₆₂	A₆₃	A₆₄	A₆₅	A₆₆	A₆₇
L₇₀	A₇₁	A₇₂	A₇₃	A₇₄	A₇₅	A₇₆	A₇₇

ö
÷
÷
÷
÷
÷
÷
÷
÷
÷
÷
ø

Puis, toujours à k=0:

æ
ç
ç
ç
ç
ç
ç
ç
ç
ç
ç
è

P₁: r;u_0,1	P₂: r; u_0,2	P₃: r; u_0,3	P₀: u_0,4	P₁	P₂	P₃
U₀₀	U₀₁	U₀₂	U₀₃	U₀₄	A₀₅	A₀₆	A₀₇
L₁₀	A₁₁'	A₁₂'	A₁₃'	A₁₄'	A₁₅	A₁₆	A₁₇
L₂₀	A₂₁'	A₂₂'	A₂₃'	A₂₄'	A₂₅	A₂₆	A₂₇
L₃₀	A₃₁'	A₃₂'	A₃₃'	A₃₄'	A₃₅	A₃₆	A₃₇
L₄₀	A₄₁'	A₄₂'	A₄₃'	A₄₄'	A₄₅	A₄₆	A₄₇
L₅₀	A₅₁'	A₅₂'	A₅₃'	A₅₄'	A₅₅	A₅₆	A₅₇
L₆₀	A₆₁'	A₆₂'	A₆₃'	A₆₄'	A₆₅	A₆₆	A₆₇
L₇₀	A₇₁'	A₇₂'	A₇₃'	A₇₄'	A₇₅	A₇₆	A₇₇

ö
÷
÷
÷
÷
÷
÷
÷
÷
÷
÷
ø

Ensuite:

æ
ç
ç
ç
ç
ç
ç
ç
ç
ç
ç
è

P₀	P₁	P₂	P₃	P₀	P₁: r; u_0,5	P₂: r; u_0,6	P₃: r; u_0,7
U₀₀	U₀₁	U₀₂	U₀₃	U₀₄	U₀₅	U₀₆	U₀₇
L₁₀	A₁₁'	A₁₂'	A₁₃'	A₁₄'	A₁₅'	A₁₆'	A₁₇'
L₂₀	A₂₁'	A₂₂'	A₂₃'	A₂₄'	A₂₅'	A₂₆'	A₂₇'
L₃₀	A₃₁'	A₃₂'	A₃₃'	A₃₄'	A₃₅'	A₃₆'	A₃₇'
L₄₀	A₄₁'	A₄₂'	A₄₃'	A₄₄'	A₄₅'	A₄₆'	A₄₇'
L₅₀	A₅₁'	A₅₂'	A₅₃'	A₅₄'	A₅₅'	A₅₆'	A₅₇'
L₆₀	A₆₁'	A₆₂'	A₆₃'	A₆₄'	A₆₅'	A₆₆'	A₆₇'
L₇₀	A₇₁'	A₇₂'	A₇₃'	A₇₄'	A₇₅'	A₇₆'	A₇₇'

ö
÷
÷
÷
÷
÷
÷
÷
÷
÷
÷
ø

Maintenant, quand k=1:

æ
ç
ç
ç
ç
ç
ç
ç
ç
ç
ç
è

P₀	P₁: p₁; b	P₂	P₃	P₀	P₁	P₂	P₃
U₀₀	U₀₁	U₀₂	U₀₃	U₀₄	U₀₅	U₀₆	U₀₇
L₁₀	U₁₁	A₁₂'	A₁₃'	A₁₄'	A₁₅'	A₁₆'	A₁₇'
L₂₀	L₂₁	A₂₂'	A₂₃'	A₂₄'	A₂₅'	A₂₆'	A₂₇'
L₃₀	L₃₁	A₃₂'	A₃₃'	A₃₄'	A₃₅'	A₃₆'	A₃₇'
L₄₀	L₄₁	A₄₂'	A₄₃'	A₄₄'	A₄₅'	A₄₆'	A₄₇'
L₅₀	L₅₁	A₅₂'	A₅₃'	A₅₄'	A₅₅'	A₅₆'	A₅₇'
L₆₀	L₆₁	A₆₂'	A₆₃'	A₆₄'	A₆₅'	A₆₆'	A₆₇'
L₇₀	L₇₁	A₇₂'	A₇₃'	A₇₄'	A₇₅'	A₇₆'	A₇₇'

ö
÷
÷
÷
÷
÷
÷
÷
÷
÷
÷
ø

Puis, toujours à k=1:

æ
ç
ç
ç
ç
ç
ç
ç
ç
ç
ç
ç
è

P₀

P₁

P₂: r; u_1,2

P₃: r; u_1,3

P₀: r; u_1,4

P₁

P₂

P₃

U₀₀

U₀₁

U₀₂

U₀₃

U₀₄

U₀₅

U₀₆

U₀₇

L₁₀

U₁₁

U₁₂

U₁₃

U₁₄

A₁₅'

A₁₆'

A₁₇'

L₂₀

L₂₁

A₂₂''

A₂₃''

A₂₄''

A₂₅'

A₂₆'

A₂₇'

L₃₀

L₃₁

A₃₂''

A₃₃''

A₃₄''

A₃₅'

A₃₆'

A₃₇'

L₄₀

L₄₁

A₄₂''

A₄₃''

A₄₄''

A₄₅'

A₄₆'

A₄₇'

L₅₀

L₅₁

A₅₂''

A₅₃''

A₅₄''

A₅₅'

A₅₆'

A₅₇'

L₆₀

L₆₁

A₆₂''

A₆₃''

A₆₄''

A₆₅'

A₆₆'

A₆₇'

L₇₀

L₇₁

A₇₂''

A₇₃''

A₇₄''

A₇₅'

A₇₆'

A₇₇'

ö
÷
÷
÷
÷
÷
÷
÷
÷
÷
÷
÷
ø

Faisons un calcul de complexité dans le cas particulier p=n. Donc, ici, alloc(k)==k.

Le coût de la mise à jour (update) de la colonne j par le processeur j est de n-k-1 pour l'étape k (éléments en position k+1 à n-1). Ceci étant fait pour toutes les étapes k=0 à k=n-1. D'où un coût total de

n-1

k=0

(n-k-1)t_a=

n(n-1)

t_a

Pour ce qui est du temps de calcul; le chemin critique d'exécution est:

prep₀(0)® update₁(0,1), prep₁(1) ® update₂(1,2), prep₂(2) ® ...

C'est comme si on faisait environ r fois le travail dans le cas d'une allocation cyclique pour r=n/p processeurs. Remarquez que l'on obtient bien un recouvrement des communications, mais pas entre les communications et le calcul! C'est ce que l'on va améliorer dans la prochaine version de l'algorithme distribué.

On a donc les coûts suivants: nb+n²/2t_c+O(1) pour les n-1 communications (transportant de l'ordre de n² données), n²/2t_a+O(1) pour les prep et pour l'update des r colonnes sur le processeur j mod p, en parallèle sur tous les processeurs, environ rn(n-1)/2. On obtient donc un coût final de l'ordre de n³/2p pour les update des p processeurs: c'est le terme dominant si p<<n et l'efficacité est excellente asymptotiquement (pour n grand).

10.2.2 Recouvrement communication/calcul

On peut décomposer le broadcast afin de réaliser un meilleur recouvrement entre les communications et le calcul, comme suit:

q = my_num();
p = tot_proc_num();
l = 0;
for (k=0;k<n-1;k++) {
  if (k == q mod p) {
    prep(k): for (i=k+1;i<n;i++)
      buffer[i-k-1] = -a[i,l]/a[k,l];
    l++; send(buffer,n-k); }
  else { receive(buffer,n-k);
    if (q != k-1 mod p) send(buffer,n-k); }
  for (j=l;j<r;j++)
    update(k,j): for (i=k+1;k<n;k++)
      a[i,j] = a[i,j]+buffer[i-k-1]*a[k,j]; }

Il reste néanmoins un défaut. Regardons ce qui se passe sur P₁:

A l'étape k=0: P₁ reçoit la colonne pivot 0 de P₀
P₁ l'envoit à P₂
Fait update(0,j) pour toutes les colonnes j qui lui appartiennent, c'est-à-dire j=1 mod p
A l'étape k=1: fait prep(1)
Envoie la colonne pivot 1 à P₂
Fait update(1,j) pour toutes les colonnes j qui lui appartiennent, c'est-à-dire j=1 mod p
etc.

On obtient donc les actions en parallèle suivantes, au cours du temps:

P₀	P₁	P₂	P₃
prep(0)
send(0)	receive(0)
update(0,4)	send(0)	receive(0)
update(0,8)	update(0,1)	send(0)	receive(0)
update(0,12)	update(0,5)	update(0,2)	update(0,3)
	update(0,9)	update(0,6)	update(0,7)
	update(0,13)	update(0,10)	update(0,11)
	prep(1)	update(0,14)	update(0,15)
	send(1)	receive(1)
	update(1,5)	send(1)	receive(1)
receive(1)	update(1,9)	update(1,2)	send(1)
update(1,4)	update(1,13)	update(1,6)	update(1,3)
update(1,8)		update(1,10)	update(1,7)
update(1,12)		update(1,14)	update(1,11)
...	...	...	...

Alors que P₁ aurait pu faire:

update(0,1)
prep(1)
Envoi vers P₂
update(0,j) pour j=1 mod p et j>1
etc.

Et on obtiendrait, toujours sur quatre processeurs:

P₀	P₁	P₂	P₃
prep(0)
send(0) \|\| up(0,4)	receive(0)
up(0,8)	send(0) \|\| up(0,1)	receive(0)
up(0,12)	prep(1)	send(0) \|\| up(0,2)	receive(0)
	send(1) \|\| up(0,5)	receive(1) \|\| up(0,6)	up(0,3)
	up(0,9)	send(1) \|\| up(0,10)	receive(1) \|\| up(0,7)
receive(1)	up(0,13)	up(0,14)	send(1) \|\| up(0,11)
up(1,4)	up(1,5)	up(1,2)	up(0,15)
up(1,8)	up(1,9)	prep(2)	up(1,3)
up(1,12)	up(1,13)	send(2) \|\| up(1,6)	receive(2) \|\| up(1,7)
receive(2)		up(1,10)	send(2) \|\| up(1,11)
send(2) \|\| up(2,4)	receive(2)	up(1,14)	up(1,15)
...	...	...	...

Ce qui est bien mieux!

10.3 Algorithmique sur grille 2D

On va maintenant examiner trois algorithmes classiques de produit de matrices sur une grille 2D, les algorithmes de Cannon, de Fox, et de Snyder.

On cherche donc à calculer C=C+AB, avec A, B et C de taille N × N. Soit p=q²: on dispose d'une grille de processeurs en tore de taille q × q. On distribue les matrices par blocs: P_ij stocke A_ij, B_ij et C_ij.

La distribution des données peut se faire, par blocs, et/ou de façon cyclique. La distribution par blocs permet d'augmenter le grain de calcul et d'améliorer l'utilisation des mémoires hiérarchiques. La distribution cyclique, elle, permet de mieux équilibrer la charge.

On définit maintenant une distribution cyclique par blocs, de façon générale. On suppose que l'on souhaite répartir un vecteur à M composantes sur p processeurs, à chaque entrée 0 £ m < M on va associer trois indices, le numéro de processeur 0 £ q < p sur lequel se trouve cette composante, le numéro de bloc b et l'indice i dans ce bloc:

(q,b,i)=

æ
ç
ç
è

m mod T

û, ë

û, m mod r

ö
÷
÷
ø

où r est la taille de bloc et T=rp.

Par exemple, un réseau linéaire par blocs (4 processeurs) avec M=8, p=4, et r=8 (pour chaque colonne) donnerait la répartition suivante:

0	0	0	0	0	0	0	0
0	0	0	0	0	0	0	0
1	1	1	1	1	1	1	1
1	1	1	1	1	1	1	1
2	2	2	2	2	2	2	2
2	2	2	2	2	2	2	2
3	3	3	3	3	3	3	3
3	3	3	3	3	3	3	3

0u encore, un réseau linéaire cyclique (4 processeurs) avec M=8, p=4, r=4 (pour chaque colonne) donnerait:

0	0	0	0	0	0	0	0
1	1	1	1	1	1	1	1
2	2	2	2	2	2	2	2
3	3	3	3	3	3	3	3
0	0	0	0	0	0	0	0
1	1	1	1	1	1	1	1
2	2	2	2	2	2	2	2
3	3	3	3	3	3	3	3

Autre exemple, un réseau en grille 2D par blocs (4×4 processeurs) avec M=8, p=4, r=8 en ligne et en colonne, donnerait:

0.0	0.0	0.1	0.1	0.2	0.2	0.3	0.3
0.0	0.0	0.1	0.1	0.2	0.2	0.3	0.3
1.0	1.0	1.1	1.1	1.2	1.2	1.3	1.3
1.0	1.0	1.1	1.1	1.2	1.2	1.3	1.3
2.0	2.0	2.1	2.1	2.2	2.2	2.3	2.3
2.0	2.0	2.1	2.1	2.2	2.2	2.3	2.3
3.0	3.0	3.1	3.1	3.2	3.2	3.3	3.3
3.0	3.0	3.1	3.1	3.2	3.2	3.3	3.3

Enfin, dernier exemple, un réseau en grille 2D par blocs cycliques, avec M=8, p=4, r=4 en ligne et en colonne:

0.0	0.1	0.2	0.3	0.0	0.1	0.2	0.3
1.0	1.1	1.2	1.3	1.0	1.1	1.2	1.3
2.0	2.1	2.2	2.3	2.0	2.1	2.2	2.3
3.0	3.1	3.2	3.3	3.0	3.1	3.2	3.3
0.0	0.1	0.2	0.3	0.0	0.1	0.2	0.3
1.0	1.1	1.2	1.3	1.0	1.1	1.2	1.3
2.0	2.1	2.2	2.3	2.0	2.1	2.2	2.3
3.0	3.1	3.2	3.3	3.0	3.1	3.2	3.3

En pratique, les fonctions de calcul de produit matriciel (ou autres fonctions qu'on voudrait typiquement mettre dans une librairie de calcul distribué) peuvent se faire en version centralisée ou distribuée. Dans la version centralisée, les routines sont appelées avec les données et les résultats sur la machine hôte. Cette version permet de minimiser le nombre de fonctions à écrire, et permet de choisir la distribution des données la plus adaptée. Mais, elle a un coût prohibitif si on enchaîne les appels.

Dans la version distribuée au contraire, les données sont déjà distribuées, et le résultat l'est également. Le passage à l'échelle est donc plus facile à obtenir, par des fonctions de redistribution des données. Mais il y a un compromis à trouver entre le coût de redistribution plus le coût de l'algorithme avec rangement adapté, avec le coût de l'algorithme avec un rangement non-adapté.

De façon générale, la redistribution des données est parfois incontournable, avec des coûts potentiellement dissuasifs. Par exemple, si on dispose d'une FFT 1D, programmer une FFT 2D peut se faire en enchaînant les calculs sur les lignes d'une matrice, puis sur les colonnes de la matrice ainsi obtenue (ou l'inverse). Chacune des étapes est parfaitement parallèle, car le calcul des FFT 1D sur l'ensemble des lignes peut se faire avec une efficacité 1, en allouant une ligne (ou plus généralement un paquet de lignes) par processeur. Par contre, quand on veut faire la même chose ensuite par colonne, il faut calculer la transposée de la matrice, ou dit de façon plus prosaïque, il faut réorganiser la matrice, afin qu'à chaque processeur soit maintenant associé une colonne, ou un paquet de colonnes en général. Ceci implique une diffusion globale qui peut être extrêmement couteuse, et arriver aux limites de la contention du réseau, ou du bus de données interne.

Prenons un exemple pour le reste des explications algorithmiques de cette section. On va supposer n=4, et C=0. On cherche donc à calculer:

æ
ç
ç
ç
è

C₀₀	C₀₁	C₀₂	C₀₃
C₁₀	C₁₁	C₁₂	C₁₃
C₂₀	C₂₁	C₂₂	C₂₃
C₃₀	C₃₁	C₃₂	C₃₃

ö
÷
÷
÷
ø

æ
ç
ç
ç
è

A₀₀	A₀₁	A₀₂	A₀₃
A₁₀	A₁₁	A₁₂	A₁₃
A₂₀	A₂₁	A₂₂	A₂₃
A₃₀	A₃₁	A₃₂	A₃₃

ö
÷
÷
÷
ø

æ
ç
ç
ç
è

B₀₀	B₀₁	B₀₂	B₀₃
B₁₀	B₁₁	B₁₂	B₁₃
B₂₀	B₂₁	B₂₂	B₂₃
B₃₀	B₃₁	B₃₂	B₃₃

ö
÷
÷
÷
ø

10.3.1 Principe de l'algorithme de Cannon

Le pseudo-code pour l'algorithme de Cannon est:

/* diag(A) sur col 0, diag(B) sur ligne 0 */
Rotations(A,B); /* preskewing */

/* calcul du produit de matrice */
forall (k=1; k<=sqrt(P)) {
  LocalProdMat(A,B,C);
  VerticalRotation(B,downwards);
  HorizontalRotation(A,leftwards); }

/* mouvements des donnees apres les calculs */
Rotations(A,B); /* postskewing */

Expliquons sur notre exemple comment l'algorithme de Cannon fonctionne. On commence par effectuer un ``preskewing'', pour obtenir les allocations des données suivantes:

æ
ç
ç
ç
è

C₀₀	C₀₁	C₀₂	C₀₃
C₁₀	C₁₁	C₁₂	C₁₃
C₂₀	C₂₁	C₂₂	C₂₃
C₃₀	C₃₁	C₃₂	C₃₃

ö
÷
÷
÷
ø

æ
ç
ç
ç
è

A₀₀	A₀₁	A₀₂	A₀₃
A₁₁	A₁₂	A₁₃	A₁₀
A₂₂	A₂₃	A₂₀	A₂₁
A₃₃	A₃₀	A₃₁	A₃₂

ö
÷
÷
÷
ø

æ
ç
ç
ç
è

B₀₀	B₁₁	B₂₂	B₃₃
B₁₀	B₂₁	B₃₂	B₀₃
B₂₀	B₃₁	B₀₂	B₁₃
B₃₀	B₀₁	B₁₂	B₂₃

ö
÷
÷
÷
ø

Puis on fait une rotation sur A et B:

æ
ç
ç
ç
è

C₀₀	C₀₁	C₀₂	C₀₃
C₁₀	C₁₁	C₁₂	C₁₃
C₂₀	C₂₁	C₂₂	C₂₃
C₃₀	C₃₁	C₃₂	C₃₃

ö
÷
÷
÷
ø

æ
ç
ç
ç
è

A₀₁	A₀₂	A₀₃	A₀₀
A₁₂	A₁₃	A₁₀	A₁₁
A₂₃	A₂₀	A₂₁	A₂₂
A₃₀	A₃₁	A₃₂	A₃₃

ö
÷
÷
÷
ø

æ
ç
ç
ç
è

B₃₀	B₀₁	B₁₂	B₂₃
B₀₀	B₁₁	B₂₂	B₃₃
B₁₀	B₂₁	B₃₂	B₀₃
B₂₀	B₃₁	B₀₂	B₁₃

ö
÷
÷
÷
ø

10.3.2 Principe de l'algorithme de Fox

Dans cet algorithme, on ne fait pas de mouvement de données initiales. On effectue des diffusions horizontales des diagonales de A (décalées vers la droite à chaque itération) et des rotations verticales de B (de bas en haut):

/* pas de mouvements de donnees avant les calculs */

/* calcul du produit de matrices */
broadcast(A(x,x));
forall (k=1; k<sqrt(P)) {
  LocalProdMat(A,B,C);
  VerticalRotation(B,upwards);
  broadcast(A(k+x,k+x)); }
forall () {
  LocalProdMat(A,B,C);
  VerticalRotation(B,upwards); }

/* pas de mouvements de donnees apres les calculs */

Par exemple, toujours pour n=4:

æ
ç
ç
ç
è

C₀₀	C₀₁	C₀₂	C₀₃
C₁₀	C₁₁	C₁₂	C₁₃
C₂₀	C₂₁	C₂₂	C₂₃
C₃₀	C₃₁	C₃₂	C₃₃

ö
÷
÷
÷
ø

æ
ç
ç
ç
è

A₀₀	A₀₀	A₀₀	A₀₀
A₁₁	A₁₁	A₁₁	A₁₁
A₂₂	A₂₂	A₂₂	A₂₂
A₃₃	A₃₃	A₃₃	A₃₃

ö
÷
÷
÷
ø

æ
ç
ç
ç
è

B₀₀	B₀₁	B₀₂	B₀₃
B₁₀	B₁₁	B₁₂	B₁₃
B₂₀	B₂₁	B₂₂	B₂₃
B₃₀	B₃₁	B₃₂	B₃₃

ö
÷
÷
÷
ø

Puis:

æ
ç
ç
ç
è

C₀₀	C₀₁	C₀₂	C₀₃
C₁₀	C₁₁	C₁₂	C₁₃
C₂₀	C₂₁	C₂₂	C₂₃
C₃₀	C₃₁	C₃₂	C₃₃

ö
÷
÷
÷
ø

æ
ç
ç
ç
è

A₀₁	A₀₁	A₀₁	A₀₁
A₁₂	A₁₂	A₁₂	A₁₂
A₂₃	A₂₃	A₂₃	A₂₃
A₃₀	A₃₀	A₃₀	A₃₀

ö
÷
÷
÷
ø

æ
ç
ç
ç
è

B₁₀	B₁₁	B₁₂	B₁₃
B₂₀	B₂₁	B₂₂	B₂₃
B₃₀	B₃₁	B₃₂	B₃₃
B₀₀	B₀₁	B₀₂	B₀₃

ö
÷
÷
÷
ø

10.3.3 Principe de l'algorithme de Snyder

On effectue une transposition préalable de B. Puis, on fait à chaque étape des sommes globales sur les lignes de processeurs (des produits calculés à chaque étape). On accumule les résultats sur les diagonales (décalées à chaque étape vers la droite) de C - représentées en gras dans les figures ci-après. Enfin, on fait des rotations verticales de B (de bas en haut, à chaque étape):

/* mouvements des donnees avant les calculs */
Transpose(B);
/* calcul du produit de matrices */
forall () {
  LocalProdMat(A,B,C);
  VerticalRotation(B,upwards); }
forall (k=1;k<sqrt(P)) {
  GlobalSum(C(i,(i+k-1) mod sqrt(P)));
  LocalProdMat(A,B,C);
  VerticalRotation(B,upwards); }
GlobalSum(C(i,(i+sqrt(P)-1) mod sqrt(P)));
/* mouvements des donnees apres les calculs */
Transpose(B);

La encore, les premières étapes sont, pour n=4:

æ
ç
ç
ç
è

C₀₀	C₀₁	C₀₂	C₀₃
C₁₀	C₁₁	C₁₂	C₁₃
C₂₀	C₂₁	C₂₂	C₂₃
C₃₀	C₃₁	C₃₂	C₃₃

ö
÷
÷
÷
ø

æ
ç
ç
ç
è

A₀₀	A₀₁	A₀₂	A₀₃
A₁₀	A₁₁	A₁₂	A₁₃
A₂₀	A₂₁	A₂₂	A₂₃
A₃₀	A₃₁	A₃₂	A₃₃

ö
÷
÷
÷
ø

æ
ç
ç
ç
è

B₀₀	B₀₁	B₀₂	B₀₃
B₁₀	B₁₁	B₁₂	B₁₃
B₂₀	B₂₁	B₂₂	B₂₃
B₃₀	B₃₁	B₃₂	B₃₃

ö
÷
÷
÷
ø

Puis:

æ
ç
ç
ç
è

C₀₀	C₀₁	C₀₂	C₀₃
C₁₀	C₁₁	C₁₂	C₁₃
C₂₀	C₂₁	C₂₂	C₂₃
C₃₀	C₃₁	C₃₂	C₃₃

ö
÷
÷
÷
ø

æ
ç
ç
ç
è

A₀₀	A₀₁	A₀₂	A₀₃
A₁₀	A₁₁	A₁₂	A₁₃
A₂₀	A₂₁	A₂₂	A₂₃
A₃₀	A₃₁	A₃₂	A₃₃

ö
÷
÷
÷
ø

æ
ç
ç
ç
è

B₁₀	B₁₁	B₁₂	B₁₃
B₂₀	B₂₁	B₂₂	B₂₃
B₃₀	B₃₁	B₃₂	B₃₃
B₀₀	B₀₁	B₀₂	B₀₃

ö
÷
÷
÷
ø

10.4 Algorithmique hétérogène

Nous avons supposé jusqu'à présent que les différents processus parallèles s'exécutent sur des processeurs qui ont exactement la même puissance de calcul. En général, sur un cluster de PC, ce ne sera pas le cas: certaines seront plus rapides que d'autres. On va voir maintenant comment faire en sorte de répartir au mieux le travail dans une telle situation.

On va considérer le problème suivant d'allocation statique de tâches. On suppose que l'on se donne t₁,t₂,...,t_p les temps de cycle des processeurs, et que l'on a B tâches identiques et indépendantes que l'on veut exécuter au mieux sur ces p processeurs. Le principe est que l'on va essayer d'assurer c_i × t_i = constante, donc on trouve:

c_i=

ê
ê
ê
ê
ê
ê
ë

t_i

k=1

t_k

ú
ú
ú
ú
ú
ú
û

× B

L'algorithme correspondant, qui calcule au mieux ces c_i est le suivant :

Distribute(B,t1,t2,...,tn)
/* initialisation: calcule ci */
for (i=1;i<=p;i++)
  c[i]=...
/* incrementer iterativement les ci minimisant le temps */
while (sum(c[])<B) {
  find k in {1,...,p} st t[k]*(c[k]+1)=min{t[i]*(c[i]+1)};
  c[k] = c[k]+1;
return(c[]);

On peut aussi programmer une version incrémentale de cet algorithme. Le problème que résoud cet algorithme est plus complexe: on souhaite faire en sorte que l'allocation soit optimale pour tout nombre d'atomes entre 1 et B. Ceci se réalise par programmation dynamique. Dans la suite, on donnera des exemples avec t₁=3, t₂=5 et t₃=8. L'algorithme est alors:

Distribute(B,t1,t2,...tp)
/* Initialisation: aucune tache a distribuer m=0 */
for (i=1;i<=p;i++) c[i]=0;
/* construit iterativement l'allocation sigma */
for (m=1;m<=B;m++)
  find(k in {1,...p} st t[k]*(c[k]+1)=min{t[i]*(c[i]+1)});
  c[k]=c[k]+1;
  sigma[m]=k;
return(sigma[],c[]);

Par exemple, pour les valeurs de t₁, t₂ et t₃ données plus haut, on trouve:

# atomes	c₁	c₂	c₃	cout	proc. sel.	alloc. s
0	0	0	0		1
1	1	0	0	3	2	s[1]=1
2	1	1	0	2.5	1	s[2]=2
3	2	1	0	2	3	s[3]=1
4	2	1	1	2	1	s[4]=3
5	3	1	1	1.8	2	s[5]=1
...
9	5	3	1	1.67	3	s[9]=2
10	5	3	2	1.6		s[10]=3

10.4.1 LU hétérogène (1D)

A chaque étape, le processeur qui possède le bloc pivot le factorise et le diffuse. Les autres processeurs mettent à jour les colonnes restantes. A l'étape suivante le bloc des b colonnes suivantes devient le pivot. Ainsi de suite: la taille des données passe de (n-1)× b à (n-2)× b etc.

On a plusieurs solutions pour réaliser l'allocation statique équilibrant les charges. On peut redistribuer les colonnes restant à traiter à chaque étape entre les processeurs: le problème devient alors le coût des communications. On peut également essayer de trouver une allocation statique permettant un équilibrage de charges à chaque étape.

On peut ainsi distribuer B tâches sur p processeurs de temps de cycle t₁, t₂ etc. t_p de telle manière à ce que pour tout i Î {2,...,B}, le nombre de blocs de {i,...,B} que possède chaque processeur P_j soit approximativement inversement proportionnel à t_j.

On alloue alors les blocs de colonnes périodiquement, dans motif de largeur B. B est un paramètre, par exemple si la matrice est (nb)× (nb), B=n (mais le recouvrement calcul communication est meilleur si B << n). On utilise l'algorithme précédent en sens inverse: le bloc de colonne 1£ k £ B est alloué sur s(B-k+1). Cette distribution est quasi-optimale pour tout sous-ensemble [i,B] de colonnes.

Par exemple, pour n=B=10, t₁=3, t₂=5, t₃=8 le motif sera:

P₃

P₂

P₁

P₂

P₁

P₃

P₁

P₂

P₁

10.4.2 Allocation statique 2D

Prenons l'exemple de la multiplication de matrices sur une grille homogène. ScaLAPACK opère par un algorithme par blocs, avec une double diffusion horizontale et verticale (comme à la figure 10.1). Cela s'adapte au cas de matrices et de grilles. Il n'y a aucune redistribution initiale des données.

Figure 10.1: Diffusion horizontale et verticale, pour la multiplication de matrices sur une grille homogène

Essayons d'allouer des blocs inhomogènes, mais de façon ``régulière''. Le principe est d'allouer des rectangles de tailles différentes aux processeurs, en fonction de leur vitesse relative. Supposons que l'on ait p× q processeurs P_i,j de temps de cycle t_i,j. L'équilibrage de charge parfait n'est réalisable que si la matrice des temps de cycle T=(t_i,j) est de rang 1. Par exemple, dans la matrice de rang 2 suivante, P_2,2 est partiellement inactif:

t₁₁=1

t₁₂=2

t₂₁=3

t₂₂=5

Par contre, dans le cas d'une matrice de rang 1 comme ci-dessus, on arrive à effectuer un équilibrage parfait:

t₁₁=1

t₁₂=2

t₂₁=3

t₂₂=6

Le problème général revient à optimiser:

Objectif Obj1:

min

å

i
r_i=1;

å

j
c_j=1

max_i,j {r_i × t_i,j× c_j}
Objectif Obj2:

max_{r_i × t_i,j × c_j £ 1} ì
í
î æ
ç
ç
è

å

i
r_i ö
÷
÷
ø × æ
ç
ç
è

å

j
c_j ö
÷
÷
ø ü
ý
þ

De plus, l'hypothèse de régularité que nous avions faite, ne tient pas forcément. En fait, la position des processeurs dans la grille n'est pas une donnée du problème. Toutes les permutations sont possibles, et il faut chercher la meilleure. Ceci nous amène à un problème NP-complet. En conclusion: l'équilibrage 2D est extrêmement difficile!

10.4.3 Partitionnement libre

Comment faire par exemple avec p (premier) processeurs, comme à la figure 10.2 ?

Figure 10.2: Problème de la partition libre

On suppose que l'on a p processeurs de vitesses s₁,s₂,...,s_n de somme 1 (normalisées). On veut partitionner le carré unité en p rectangles de surfaces s₁,s₂,...,s_n. La surface des rectangles représente la vitesse relative des processeurs. La forme des rectangles doit permettre de minimiser les communications.

Géométriquement, on essaie donc de partitionner le carré unité en p rectangles d'aires fixées s₁, s₂, ..., s_p afin de minimiser soit la somme des demi-périmètres des rectangles dans le cas des communications séquentielles, soit le plus grand des demi-périmètres des rectangles dans le cas de communications parallèles. Ce sont deux problèmes NP-complets.

Prenons un exemple pour bien mesurer la difficulté du partitionnement libre: supposons que l'on ait p=5 rectangles R₁,...,R₅ dont les aires sont s₁=0.36, s₂=0.25, s₃=s₄=s₅=0.13 (voir figure 10.3).

Figure 10.3: Problème de la partition libre

Alors, le demi-périmètre maximal pour R₁ est approximativement de 1.2002. La borne inférieure absolue 2 sqrts₁ = 1.2 est atteinte lorsque le plus grand rectangle est un carré, ce qui n'est pas possible ici. La somme des demi-périmètres est de 4.39. La borne absolue inférieure å_i=1^p 2 sqrts_i=4.36 est atteinte lorsque tous les rectangles sont des carrés.

0	0	0	0	0	0	0	0
0	0	0	0	0	0	0	0
1	1	1	1	1	1	1	1
1	1	1	1	1	1	1	1
2	2	2	2	2	2	2	2
2	2	2	2	2	2	2	2
3	3	3	3	3	3	3	3
3	3	3	3	3	3	3	3

0	0	0	0	0	0	0	0
1	1	1	1	1	1	1	1
2	2	2	2	2	2	2	2
3	3	3	3	3	3	3	3
0	0	0	0	0	0	0	0
1	1	1	1	1	1	1	1
2	2	2	2	2	2	2	2
3	3	3	3	3	3	3	3

0	0	0	0	0	0	0	0
0	0	0	0	0	0	0	0
1	1	1	1	1	1	1	1
1	1	1	1	1	1	1	1
2	2	2	2	2	2	2	2
2	2	2	2	2	2	2	2
3	3	3	3	3	3	3	3
3	3	3	3	3	3	3	3

0	0	0	0	0	0	0	0
1	1	1	1	1	1	1	1
2	2	2	2	2	2	2	2
3	3	3	3	3	3	3	3
0	0	0	0	0	0	0	0
1	1	1	1	1	1	1	1
2	2	2	2	2	2	2	2
3	3	3	3	3	3	3	3

0	0	0	0	0	0	0	0
0	0	0	0	0	0	0	0
1	1	1	1	1	1	1	1
1	1	1	1	1	1	1	1
2	2	2	2	2	2	2	2
2	2	2	2	2	2	2	2
3	3	3	3	3	3	3	3
3	3	3	3	3	3	3	3

0	0	0	0	0	0	0	0
1	1	1	1	1	1	1	1
2	2	2	2	2	2	2	2
3	3	3	3	3	3	3	3
0	0	0	0	0	0	0	0
1	1	1	1	1	1	1	1
2	2	2	2	2	2	2	2
3	3	3	3	3	3	3	3