TD 2 (partie 2). Introduction à CUDA
par Eric Goubault et Sylvie Putot

Utiliser CUDA dans les salles machines de l'X

Quelles cartes NVIDIA et ou sont-elles?

Ecrire, compiler et exécuter un programme CUDA

La documentation

Mise en oeuvre : calcul de PI en parallèle

Implémenter le calcul de π en parallèle avec la formule suivante (cf aussi le TD1) :

π=
1


0
 
4
1+x2
 dx 
 
n
i=1
 
1
n
 
4
1+


(i
1
2
)
1
n



2



 
 

Principe général de calcul

Une solution est le paradigme Maître/Esclave: Un maître va lancer N esclaves chargés de calculer les sommes partielles,

Pk=
i=k*n/N+1(k+1)*n/N 
1
n
 
4
1+


(i
1
2
)
1
n



2



 
 

pour k=0,⋯,N-1, puis faire la somme des résultats partiels.

Quelques pistes et suggestions pour l'implémentation CUDA

Pour vous aider à démarrer, en plus des docs CUDA, vous pouvez regarder les transparents du cours 3.

Vérification des résultats et affichage des performances

Précision des calculs

Faire varier taille des grilles et des blocs

Faire varier n, le nombre de blocs, de threads par blocs et observer les performances relatives.

Quelques outils

Visual profiler

Occupancy calculator

Pour essayer de comprendre les performances: mode d'emploi inclus dans le fichier excel.

Le debugger

cuda_gdb (seulement en mode console), cuda_memcheck (pas de pb de mode console; compiler avec -g -G)