Cel mai rapid GPU de 4 nm din lume și primul din lume cu memorie HBM3

La GTC 2022, NVIDIA a prezentat GPU Hopper H100, o putere de calcul concepută pentru următoarea generație de centre de date. A trecut ceva timp de când am vorbit despre acest cip puternic, dar se pare că NVIDIA a oferit un prim-plan al cipului său emblematic pentru a selecta media.

GPU NVIDIA Hopper H100: primul cu tehnologie 4nm și HBM3 realizează imagini de înaltă rezoluție

CNET a reușit să pună mâna nu doar pe placa grafică cu care este fuzionat GPU-ul H100, ci și pe cipul H100 în sine. GPU-ul H100 este un cip monstru cu cea mai recentă tehnologie de 4 nm și încorporează 80 de miliarde de tranzistori împreună cu tehnologia de memorie HBM3 de ultimă oră. Potrivit prizei de tehnologie, H100 este construit pe PCB PG520 care are peste 30 de VRM-uri de putere și un interpozitor masiv masiv care utilizează tehnologia CoWoS a TSMC pentru a combina GPU-ul Hopper H100 cu un design HBM3 cu 6 stive.

Noua generație NVIDIA GeForce RTX 4090 cu cel mai bun GPU AD102 ar putea fi prima placă grafică pentru jocuri care depășește 100 de TFLOP

GPU NVIDIA Hopper H100 afișat (Credite imagine: CNET):

Dintre cele șase stive, două stive sunt păstrate pentru a asigura integritatea performanței. Dar noul standard HBM3 permite capacități de până la 80 GB la viteze de 3 TB/s, ceea ce este o nebunie. Pentru comparație, cea mai rapidă placă grafică de gaming actuală, RTX 3090 Ti, oferă doar 1 TB/s lățime de bandă și 24 GB de capabilități VRAM. În afară de asta, GPU-ul H100 Hopper încorporează, de asemenea, cel mai recent format de date FP8 și, cu noua sa conexiune SXM, ajută la susținerea designului de putere de 700W pe care este construit cipul.

Specificațiile GPU-ului NVIDIA Hopper H100 pe scurt

În ceea ce privește specificațiile, GPU-ul NVIDIA Hopper GH100 este compus dintr-o configurație masivă de 144 de cipuri SM (Streaming Multiprocessor), care este prezentat într-un total de 8 GPC-uri. Aceste GPC-uri comută în total 9 TPC-uri care sunt compuse în continuare din câte 2 unități SM fiecare. Acest lucru ne oferă 18 SM per GPC și 144 pe configurația completă cu 8 GPC. Fiecare SM este format din până la 128 de unități FP32, ceea ce ar trebui să ne ofere un total de 18.432 de nuclee CUDA. Iată câteva dintre configurațiile la care vă puteți aștepta de la cipul H100:

Implementarea completă a GPU GH100 include următoarele unități:

CEO-ul Intel, Pat Gelsinger, prezice sfârșitul penuriei de cipuri până în 2024

  • 8 GPC, 72 TPC (9 TPC/GPC), 2 SM/TPC, 144 SM per GPU complet
  • 128 de nuclee FP32 CUDA per SM, 18.432 de nuclee FP32 CUDA per GPU complet
  • 4 nuclee Tensor de a patra generație per SM, 576 per GPU complet
  • 6 stive HBM3 sau HBM2e, 12 controlere de memorie pe 512 biți
  • 60 MB cache L2
  • Gen 4 NVLink și PCIe Gen 5

GPU-ul NVIDIA H100 cu factor de formă de card SXM5 include următoarele unități:

  • 8 GPC, 66 TPC, 2 SM/TPC, 132 SM per GPU
  • 128 de nuclee FP32 CUDA per SM, 16896 de nuclee FP32 CUDA per GPU
  • 4 nuclee Tensor de a patra generație per SM, 528 per GPU
  • 80 GB HBM3, 5 stive HBM3, 10 controlere de memorie pe 512 biți
  • 50 MB cache L2
  • Gen 4 NVLink și PCIe Gen 5

Aceasta este o creștere de 2,25 ori față de configurația completă a GPU GA100. NVIDIA profită, de asemenea, de mai multe nuclee FP64, FP16 și Tensor în GPU Hopper, ceea ce ar crește enorm performanța. Și va fi o necesitate să concurezi cu Ponte Vecchio de la Intel, care este de așteptat să aibă și FP64 1:1.

Cache-ul este un alt spațiu căruia NVIDIA i-a acordat multă atenție, crescându-l la 48MB în GPU-ul Hopper GH100. Aceasta este o creștere cu 20% față de memoria cache de 50 MB a GPU-ului Ampere GA100 și de trei ori dimensiunea GPU-ului AMD Aldebaran MCM, MI250X.

Pentru a rezuma performanța, GPU-ul NVIDIA GH100 Hopper va oferi 4000 TFLOP-uri de FP8, 2000 TFLOP-uri de FP16, 1000 TFLOP-uri de TF32 și 60 TFLOP-uri de FP64. Aceste numere record decimează toate celelalte acceleratoare HPC care au apărut înainte. Pentru comparație, este de 3,3 ori mai rapid decât GPU-ul NVIDIA A100 și cu 28% mai rapid decât Instinct MI250X de la AMD în calculul FP64. În calculul FP16, GPU-ul H100 este de 3 ori mai rapid decât A100 și de 5,2 ori mai rapid decât MI250X, care este literalmente nebun.

Varianta PCIe, care este un model la scară, a fost recent listată în Japonia pentru peste 30.000 USD, așa că ne putem imagina că varianta SXM cu o configurație mai robustă va costa cu ușurință în jur de 50.000 USD.

Specificații Tesla A100 bazate pe GPU NVIDIA Ampere GA100:

Placa grafica NVIDIA Tesla NVIDIA H100 (SMX5) NVIDIA H100 (PCIe) NVIDIA A100 (SXM4) NVIDIA A100 (PCIe4) Tesla V100S (PCIe) Tesla V100 (SXM2) Tesla P100 (SXM2) Tesla P100
(PCI Express)
Tesla M40
(PCI Express)
Tesla K40
(PCI Express)
GPU-uri GH100 (pâlnie) GH100 (pâlnie) GA100 (Amperi) GA100 (Amperi) GV100 (Volta) GV100 (Volta) GP100 (Pascal) GP100 (Pascal) GM200 (Maxwell) GK110 (Kepler)
Nodul de proces 4nm 4nm 7nm 7nm 12 nm 12 nm 16 nm 16 nm 28 nm 28 nm
Tranzistoare 80 de miliarde 80 de miliarde 54,2 miliarde 54,2 miliarde 21,1 miliarde 21,1 miliarde 15,3 miliarde 15,3 miliarde 8 miliarde 7,1 miliarde
Dimensiunea matriței GPU 814 mm2 814 mm2 826 mm2 826 mm2 815 mm2 815 mm2 610 mm2 610 mm2 601 mm2 551 mm2
mesaj 132 114 108 108 80 80 56 56 24 15
CPT 66 57 54 54 40 40 28 28 24 15
Miezuri CUDA FP32 per SM 128 128 64 64 64 64 64 64 128 192
FP64/SM CUDA Cores 128 128 32 32 32 32 32 32 4 64
Miezuri CUDA FP32 16896 14592 6912 6912 5120 5120 3584 3584 3072 2880
Miezuri CUDA FP64 16896 14592 3456 3456 2560 2560 1792 1792 96 960
Miezuri tensoare 528 456 432 432 640 640 N / A N / A N / A N / A
Unități de textura 528 456 432 432 320 320 224 224 192 240
Boost ceasul A fi determinat A fi determinat 1410MHz 1410MHz 1601 MHz 1530 MHz 1480MHz 1329 MHz 1114 MHz 875 MHz
TOP (DNN/AI) 2000 de TOP-uri
4000 de TOP-uri
1600 TOP-uri
3200 TOP-uri
1248 TOP
2496 TOP cu măsură
1248 TOP
2496 TOP cu măsură
130 de TOP-uri 125 TOP-uri N / A N / A N / A N / A
FP16 Calcul 2000 TFLOP-uri 1600 TFLOP-uri 312 TFLOP-uri
624 TFLOP-uri cu moderație
312 TFLOP-uri
624 TFLOP-uri cu moderație
32,8 TFLOP-uri 30,4 TFLOP-uri 21.2 TFLOP-uri 18,7 TFLOP-uri N / A N / A
Calcul FP32 1000 TFLOP 800 TFLOP 156 TFLOP-uri
(19,5 TFLOP standard)
156 TFLOP-uri
(19,5 TFLOP standard)
16.4 TFLOP-uri 15,7 TFLOP-uri 10,6 TFLOP-uri 10,0 TFLOP 6.8 TFLOP-uri 5,04 TFLOP-uri
Calcul FP64 60 TFLOP-uri 48 TFLOP-uri 19,5 TFLOP-uri
(9,7 TFLOP standard)
19,5 TFLOP-uri
(9,7 TFLOP standard)
8.2 TFLOP-uri 7,80 TFLOP 5.30 TFLOP-uri 4.7 TFLOP-uri 0,2 TFLOP-uri 1,68 TFLOP
Interfață de memorie HBM3 5120 biți HBM2e 5120 biți HBM2e 6144 biți HBM2e 6144 biți HBM2 4096 biți HBM2 4096 biți HBM2 4096 biți HBM2 4096 biți GDDR5 pe 384 de biți GDDR5 pe 384 de biți
Capacitate de memorie Până la 80 GB HBM3 la 3,0 Gbps Până la 80 GB HBM2e la 2,0 Gbps Până la 40 GB HBM2 la 1,6 TB/s
Până la 80 GB HBM2 la 1,6 TB/s
Până la 40 GB HBM2 la 1,6 TB/s
Până la 80 GB HBM2 la 2,0 TB/s
16 GB HBM2 la 1134 GB/s 16 GB HBM2 la 900 GB/s 16 GB HBM2 la 732 GB/s 16 GB HBM2 la 732 GB/s
12 GB HBM2 la 549 GB/s
24 GB GDDR5 la 288 GB/s 12 GB GDDR5 la 288 GB/s
Dimensiunea cache L2 51200 KB 51200 KB 40960 KB 40960 KB 6144 KB 6144 KB 4096 KB 4096 KB 3072 KB 1536 KB
PDT 700W 350W 400W 250W 250W 300W 300W 250W 250W 235W

Add Comment