NVIDIA GB200 NVL72

실시간 1조 매개 변수 추론·훈련을 위한 랙 스케일 아키텍처

NVIDIA GB200 NVL72

36 Grace CPU와 72 Blackwell GPU를 하나의 거대 NVLink 도메인으로 묶어, 수조 개의 매개 변수가 있는 실시간 거대 언어 모델(LLM)의 실시간 추론을 가능하게 합니다. 72-GPU가 하나의 거대 GPU처럼 동작하며, 데이터센터 효율을 극대화합니다.

5세대 NVLink와 액체냉각 설계로 고대역/저지연 통신을 구현하고, 엔터프라이즈 규모의 학습·추론 워크로드를 안정적으로 스케일합니다.

1,440 PFLOPS

FP4 Tensor Core

13.4 TB

HBM3e Memory

130 TB/s

NVLink Bandwidth

720 PFLOPS

FP8/FP6 Tensor Core

576 TB/s

Memory Bandwidth

2,592 Cores

Arm® Neoverse V2 CPU

데이터시트 다운로드 제품문의 바로가기

KEYFEATURES

실시간 초거대 모델 추론

72개의 GPU가 하나처럼 동작해 Trillion-parameter LLM도 실시간으로 처리합니다. 5세대 NVLink와 Transformer Engine을 통해 H100 대비 최대 30배 빠른 추론 성능을 제공합니다.

압도적인 학습 성능

FP8 기반 아키텍처로 학습 속도가 이전세대보다 최대 4배 향상됩니다. 초대형 모델 훈련에 최적화되어 연구와 엔터프라이즈 환경 모두에서 탁월한 성능을 보장합니다.

초고속 확장 아키텍처

GPU 간 130TB/s NVLink로 통신 병목을 제거하고, 72개 GPU가 매끄럽게 연결됩니다. 단일 랙 스케일에서 안정적 확장성을 제공해 대규모 AI 인프라 구축을 지원합니다.

지속 가능한 인프라 효율

액체 냉각 기반 설계로 데이터센터 공간과 전력 사용을 크게 절감합니다. 전력당 성능은 최대 25배 향상되어 고성능과 친환경을 동시에 충족할 수 있습니다.

SPECIFICATION

Configuration	36 Grace CPU : 72 Blackwell GPUs
FP4 Tensor Core(with sparsity)	1,440 PFLOPS
FP8/FP6 Tensor Core(with sparsity)	720 PFLOPS
INT8 Tensor Core(with sparsity)	720 POPS
FP16/BF16 Tensor Core(with sparsity)	360 PFLOPS
TF32 Tensor Core	180 PFLOPS
FP32	5,760 TFLOPS
FP64	2,880 TFLOPS
FP64 Tensor Core	2,880 TFLOPS
GPU Memory · Bandwidth	Up to 13.4 TB HBM3e · 576 TB/s
NVLink™ Bandwidth	130 TB/s (72-GPU NVLink 도메인)
CPU Core Count	2,592 Arm® Neoverse V2 cores
CPU Memory · Bandwidth	Up to 17 TB LPDDR5X · Up to 18.4 TB/s