Ampere (microarchitecture)
Ampere est une microarchitecture de processeur graphique développée par Nvidia pour ses cartes graphiques. Elle succède à la microarchitecture Turing et est sortie en mai 2020.
Caractéristiques
    
Les améliorations architecturales de l'architecture Ampere comprennent :
- CUDA Compute Capability 8.0 pour le A100 et 8.6 pour les cartes GeForce 30 series[1] ;
 - Procédé 7 nm FinFET de TSMC pour le A100 ;
 - Version customisée du procédé 8 nm (8N) de Samsung pour les GeForce 30 series[2] ;
 - Troisième génération de coeurs Tensor supportant le FP16, le bfloat16 (en), le TensorFloat-32 (TF32) et le FP64, ainsi que l'accélération du traitement des matrices creuses[3]. Les coeurs Tensor ont, avec 256 opérations FMA FP16 par cycle, 4 fois la puissance de calcul (seulement sur le GA100, 2 fois sur les GA10x) des générations précédentes de coeurs Tensor ; le nombre de coeurs Tensor est de quatre par SM (Streaming Multiprocessor) ;
 - Double coeur FP32 par SM sur les GPU GA10x ;
 - Deuxième génération de coeurs ray tracing ; ray tracing concurrent, ombrage et compute sur les cartes GeForce 30 ;
 - Mémoire HBM2 (en) sur les A100 40 GB & A100 80 GB ;
 - Mémoire GDDR6X sur les cartes GeForce RTX 3090, RTX 3080 Ti, RTX 3080, RTX 3070 Ti ;
 - NVLink 3.0 (en) avec un débit de 50 Gbit/s par paire[3] ;
 - PCI Express 4.0 avec support de SR-IOV (en) (uniquement sur le A100)
 - Virtualisation Multi-instance GPU (MIG) avec possibilité de partitionnement du GPU supportant jusqu'à sept instances sur le A100 ;
 - Décodage vidéo hardware PureVideo (en) comprenant l'ensemble de caractéristiques K et le décodage hardware de AV1[4] pour les cartes GeForce 30 series et l'ensemble de caractéristiques J pour le A100 ;
 - 5 décodeurs vidéo NVDEC (en) pour le A100 ;
 - Nouveau décodeur JPEG hardware à 5 coeurs (NVJPG) avec YUV420, YUV422, YUV444, YUV400, RGBA. Il ne doit pas être confondu avec le NVJPEG de Nvidia (bibliothèque accélérée par GPU pour le codage/décodage JPEG).
 
Puces
    
- GA100[5]
 - GA102
 - GA103
 - GA104
 - GA106
 - GA107
 
Comparaison des capacités de calcul : GP100 vs GV100 vs GA100[6]
    
| GPU | NVIDIA Tesla P100 | NVIDIA Tesla V100 | NVIDIA A100 | 
|---|---|---|---|
| Code du GPU | GP100 | GV100 | GA100 | 
| Architecture GPU | NVIDIA Pascal | NVIDIA Volta | NVIDIA Ampere | 
| Compute capability | 6.0 | 7.0 | 8.0 | 
| Threads / warp | 32 | 32 | 32 | 
| Max warps / SM | 64 | 64 | 64 | 
| Max threads / SM | 2048 | 2048 | 2048 | 
| Max thread blocks / SM | 32 | 32 | 32 | 
| Max 32-bit registers / SM | 65536 | 65536 | 65536 | 
| Max registers / block | 65536 | 65536 | 65536 | 
| Max registers / thread | 255 | 255 | 255 | 
| Max thread block size | 1024 | 1024 | 1024 | 
| FP32 cores / SM | 64 | 64 | 64 | 
| Ratio of SM registers to FP32 cores | 1024 | 1024 | 1024 | 
| Taille de la mémoire partagée / SM | 64 KB | Configurable jusqu'à 96 KB | Configurable jusqu'à 164 KB | 
Tableau de comparaison des formats numériques supportés[7],[8]
    
| Formats supportés par les coeurs CUDA | Formats supportés par les coeurs Tensor | |||||||||||||||
| FP16 | FP32 | FP64 | INT1 | INT4 | INT8 | TF32 | BF16 | FP16 | FP32 | FP64 | INT1 | INT4 | INT8 | TF32 | BF16 | |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| NVIDIA Tesla P4 | Oui | Oui | Oui | |||||||||||||
| NVIDIA P100 | Oui | Oui | Oui | |||||||||||||
| NVIDIA Volta | Oui | Oui | Oui | Oui | Oui | |||||||||||
| NVIDIA Turing | Oui | Oui | Oui | Oui | Oui | Oui | Oui | |||||||||
| NVIDIA A100 | Oui | Oui | Oui | Oui | Oui | Oui | Oui | Oui | Oui | Oui | Oui | Oui | ||||
Légende :
- FPnn : virgule flottante avec nn bits
 - INTn : entier avec n bits
 - INT1 : binaire
 - TF32 : TensorFloat32
 - BF16 : bfloat16
 
Comparaison des performances en décodage vidéo
    
| Flux concurrents | Décodage H.264 (1080p30)  | 
Décodage H.265 (HEVC) (1080p30)  | 
Décodage VP9 (1080p30)  | 
|---|---|---|---|
| V100 | 16 | 22 | 22 | 
| A100 | 75 | 157 | 108 | 
Notes et références
    
- (en-US) « I.7. Compute Capability 8.x », sur Nvidia (consulté le )
 - (en-US) Dominik Bosnjak, « Samsung's old 8nm tech at the heart of NVIDIA's monstrous Ampere cards », sur SamMobile, (consulté le )
 - (en) Smith, « NVIDIA Ampere Unleashed: NVIDIA Announces New GPU Architecture, A100 GPU, and Accelerator », sur AnandTech,
 - (en-US) Gerardo Delgado, « GeForce RTX 30 Series GPUs: Ushering In A New Era of Video Content With AV1 Decode », sur Nvidia, (consulté le )
 - (en-US) Timothy Prickett Morgan, « Diving Deep Into The Nvidia Ampere GPU Architecture », sur The Next Platform, (consulté le )
 - (en-US) « NVIDIA A100 Tensor Core GPU Architecture: Unprecedented Accerlation at Every Scale », sur Nvidia (consulté le )
 - (en) « NVIDIA Tensor Cores: Versatility for HPC & AI », sur NVIDIA
 - (en) « Abstract », sur docs.nvidia.com
 
    Cet article est issu de Wikipedia. Le texte est sous licence Creative Commons – Attribution – Partage à l’identique. Des conditions supplémentaires peuvent s’appliquer aux fichiers multimédias.