GPU-ul emblematic Datacenter al NVIDIA, Hopper H100, a fost fotografiat în toată splendoarea sa. (Credit imagine: CNET)
La GTC 2022, NVIDIA a prezentat GPU Hopper H100, o putere de calcul concepută pentru următoarea generație de centre de date. A trecut ceva timp de când am vorbit despre acest cip puternic, dar se pare că NVIDIA a oferit un prim-plan al cipului său emblematic pentru a selecta media.
GPU NVIDIA Hopper H100: primul cu tehnologie 4nm și HBM3 realizează imagini de înaltă rezoluție
CNET a reușit să pună mâna nu doar pe placa grafică cu care este fuzionat GPU-ul H100, ci și pe cipul H100 în sine. GPU-ul H100 este un cip monstru cu cea mai recentă tehnologie de 4 nm și încorporează 80 de miliarde de tranzistori împreună cu tehnologia de memorie HBM3 de ultimă oră. Potrivit prizei de tehnologie, H100 este construit pe PCB PG520 care are peste 30 de VRM-uri de putere și un interpozitor masiv masiv care utilizează tehnologia CoWoS a TSMC pentru a combina GPU-ul Hopper H100 cu un design HBM3 cu 6 stive.
GPU NVIDIA Hopper H100 afișat (Credite imagine: CNET):
Dintre cele șase stive, două stive sunt păstrate pentru a asigura integritatea performanței. Dar noul standard HBM3 permite capacități de până la 80 GB la viteze de 3 TB/s, ceea ce este o nebunie. Pentru comparație, cea mai rapidă placă grafică de gaming actuală, RTX 3090 Ti, oferă doar 1 TB/s lățime de bandă și 24 GB de capabilități VRAM. În afară de asta, GPU-ul H100 Hopper încorporează, de asemenea, cel mai recent format de date FP8 și, cu noua sa conexiune SXM, ajută la susținerea designului de putere de 700W pe care este construit cipul.
Specificațiile GPU-ului NVIDIA Hopper H100 pe scurt
În ceea ce privește specificațiile, GPU-ul NVIDIA Hopper GH100 este compus dintr-o configurație masivă de 144 de cipuri SM (Streaming Multiprocessor), care este prezentat într-un total de 8 GPC-uri. Aceste GPC-uri comută în total 9 TPC-uri care sunt compuse în continuare din câte 2 unități SM fiecare. Acest lucru ne oferă 18 SM per GPC și 144 pe configurația completă cu 8 GPC. Fiecare SM este format din până la 128 de unități FP32, ceea ce ar trebui să ne ofere un total de 18.432 de nuclee CUDA. Iată câteva dintre configurațiile la care vă puteți aștepta de la cipul H100:
Implementarea completă a GPU GH100 include următoarele unități:
- 8 GPC, 72 TPC (9 TPC/GPC), 2 SM/TPC, 144 SM per GPU complet
- 128 de nuclee FP32 CUDA per SM, 18.432 de nuclee FP32 CUDA per GPU complet
- 4 nuclee Tensor de a patra generație per SM, 576 per GPU complet
- 6 stive HBM3 sau HBM2e, 12 controlere de memorie pe 512 biți
- 60 MB cache L2
- Gen 4 NVLink și PCIe Gen 5
GPU-ul NVIDIA H100 cu factor de formă de card SXM5 include următoarele unități:
- 8 GPC, 66 TPC, 2 SM/TPC, 132 SM per GPU
- 128 de nuclee FP32 CUDA per SM, 16896 de nuclee FP32 CUDA per GPU
- 4 nuclee Tensor de a patra generație per SM, 528 per GPU
- 80 GB HBM3, 5 stive HBM3, 10 controlere de memorie pe 512 biți
- 50 MB cache L2
- Gen 4 NVLink și PCIe Gen 5
Aceasta este o creștere de 2,25 ori față de configurația completă a GPU GA100. NVIDIA profită, de asemenea, de mai multe nuclee FP64, FP16 și Tensor în GPU Hopper, ceea ce ar crește enorm performanța. Și va fi o necesitate să concurezi cu Ponte Vecchio de la Intel, care este de așteptat să aibă și FP64 1:1.
Cache-ul este un alt spațiu căruia NVIDIA i-a acordat multă atenție, crescându-l la 48MB în GPU-ul Hopper GH100. Aceasta este o creștere cu 20% față de memoria cache de 50 MB a GPU-ului Ampere GA100 și de trei ori dimensiunea GPU-ului AMD Aldebaran MCM, MI250X.
Pentru a rezuma performanța, GPU-ul NVIDIA GH100 Hopper va oferi 4000 TFLOP-uri de FP8, 2000 TFLOP-uri de FP16, 1000 TFLOP-uri de TF32 și 60 TFLOP-uri de FP64. Aceste numere record decimează toate celelalte acceleratoare HPC care au apărut înainte. Pentru comparație, este de 3,3 ori mai rapid decât GPU-ul NVIDIA A100 și cu 28% mai rapid decât Instinct MI250X de la AMD în calculul FP64. În calculul FP16, GPU-ul H100 este de 3 ori mai rapid decât A100 și de 5,2 ori mai rapid decât MI250X, care este literalmente nebun.
Varianta PCIe, care este un model la scară, a fost recent listată în Japonia pentru peste 30.000 USD, așa că ne putem imagina că varianta SXM cu o configurație mai robustă va costa cu ușurință în jur de 50.000 USD.
Specificații Tesla A100 bazate pe GPU NVIDIA Ampere GA100:
Placa grafica NVIDIA Tesla | NVIDIA H100 (SMX5) | NVIDIA H100 (PCIe) | NVIDIA A100 (SXM4) | NVIDIA A100 (PCIe4) | Tesla V100S (PCIe) | Tesla V100 (SXM2) | Tesla P100 (SXM2) | Tesla P100 (PCI Express) |
Tesla M40 (PCI Express) |
Tesla K40 (PCI Express) |
---|---|---|---|---|---|---|---|---|---|---|
GPU-uri | GH100 (pâlnie) | GH100 (pâlnie) | GA100 (Amperi) | GA100 (Amperi) | GV100 (Volta) | GV100 (Volta) | GP100 (Pascal) | GP100 (Pascal) | GM200 (Maxwell) | GK110 (Kepler) |
Nodul de proces | 4nm | 4nm | 7nm | 7nm | 12 nm | 12 nm | 16 nm | 16 nm | 28 nm | 28 nm |
Tranzistoare | 80 de miliarde | 80 de miliarde | 54,2 miliarde | 54,2 miliarde | 21,1 miliarde | 21,1 miliarde | 15,3 miliarde | 15,3 miliarde | 8 miliarde | 7,1 miliarde |
Dimensiunea matriței GPU | 814 mm2 | 814 mm2 | 826 mm2 | 826 mm2 | 815 mm2 | 815 mm2 | 610 mm2 | 610 mm2 | 601 mm2 | 551 mm2 |
mesaj | 132 | 114 | 108 | 108 | 80 | 80 | 56 | 56 | 24 | 15 |
CPT | 66 | 57 | 54 | 54 | 40 | 40 | 28 | 28 | 24 | 15 |
Miezuri CUDA FP32 per SM | 128 | 128 | 64 | 64 | 64 | 64 | 64 | 64 | 128 | 192 |
FP64/SM CUDA Cores | 128 | 128 | 32 | 32 | 32 | 32 | 32 | 32 | 4 | 64 |
Miezuri CUDA FP32 | 16896 | 14592 | 6912 | 6912 | 5120 | 5120 | 3584 | 3584 | 3072 | 2880 |
Miezuri CUDA FP64 | 16896 | 14592 | 3456 | 3456 | 2560 | 2560 | 1792 | 1792 | 96 | 960 |
Miezuri tensoare | 528 | 456 | 432 | 432 | 640 | 640 | N / A | N / A | N / A | N / A |
Unități de textura | 528 | 456 | 432 | 432 | 320 | 320 | 224 | 224 | 192 | 240 |
Boost ceasul | A fi determinat | A fi determinat | 1410MHz | 1410MHz | 1601 MHz | 1530 MHz | 1480MHz | 1329 MHz | 1114 MHz | 875 MHz |
TOP (DNN/AI) | 2000 de TOP-uri 4000 de TOP-uri |
1600 TOP-uri 3200 TOP-uri |
1248 TOP 2496 TOP cu măsură |
1248 TOP 2496 TOP cu măsură |
130 de TOP-uri | 125 TOP-uri | N / A | N / A | N / A | N / A |
FP16 Calcul | 2000 TFLOP-uri | 1600 TFLOP-uri | 312 TFLOP-uri 624 TFLOP-uri cu moderație |
312 TFLOP-uri 624 TFLOP-uri cu moderație |
32,8 TFLOP-uri | 30,4 TFLOP-uri | 21.2 TFLOP-uri | 18,7 TFLOP-uri | N / A | N / A |
Calcul FP32 | 1000 TFLOP | 800 TFLOP | 156 TFLOP-uri (19,5 TFLOP standard) |
156 TFLOP-uri (19,5 TFLOP standard) |
16.4 TFLOP-uri | 15,7 TFLOP-uri | 10,6 TFLOP-uri | 10,0 TFLOP | 6.8 TFLOP-uri | 5,04 TFLOP-uri |
Calcul FP64 | 60 TFLOP-uri | 48 TFLOP-uri | 19,5 TFLOP-uri (9,7 TFLOP standard) |
19,5 TFLOP-uri (9,7 TFLOP standard) |
8.2 TFLOP-uri | 7,80 TFLOP | 5.30 TFLOP-uri | 4.7 TFLOP-uri | 0,2 TFLOP-uri | 1,68 TFLOP |
Interfață de memorie | HBM3 5120 biți | HBM2e 5120 biți | HBM2e 6144 biți | HBM2e 6144 biți | HBM2 4096 biți | HBM2 4096 biți | HBM2 4096 biți | HBM2 4096 biți | GDDR5 pe 384 de biți | GDDR5 pe 384 de biți |
Capacitate de memorie | Până la 80 GB HBM3 la 3,0 Gbps | Până la 80 GB HBM2e la 2,0 Gbps | Până la 40 GB HBM2 la 1,6 TB/s Până la 80 GB HBM2 la 1,6 TB/s |
Până la 40 GB HBM2 la 1,6 TB/s Până la 80 GB HBM2 la 2,0 TB/s |
16 GB HBM2 la 1134 GB/s | 16 GB HBM2 la 900 GB/s | 16 GB HBM2 la 732 GB/s | 16 GB HBM2 la 732 GB/s 12 GB HBM2 la 549 GB/s |
24 GB GDDR5 la 288 GB/s | 12 GB GDDR5 la 288 GB/s |
Dimensiunea cache L2 | 51200 KB | 51200 KB | 40960 KB | 40960 KB | 6144 KB | 6144 KB | 4096 KB | 4096 KB | 3072 KB | 1536 KB |
PDT | 700W | 350W | 400W | 250W | 250W | 300W | 300W | 250W | 250W | 235W |