반응형
Hardware · GPU 심화
GPU 핵심 구조 완전 정리
SM · CUDA Core · VRAM · PCIe · NVLink
GPU는 대량의 데이터를 동시에 처리하기 위해 설계된 병렬 연산 프로세서
개요 CPU vs GPU — 무엇이 다른가?
GPU는 대량의 데이터를 동시에 처리하기 위해 설계된 병렬 연산 프로세서다. CPU와의 핵심 차이를 먼저 이해하면 GPU 구조가 쉽게 잡힌다.
| 구분 | CPU | GPU |
|---|---|---|
| 설계 목적 | 범용 연산 | 병렬 연산 |
| 코어 수 | 적음 (수~수십 개) | 매우 많음 (수천~수만 개) |
| 처리 방식 | 순차 처리 | 병렬 처리 |
| 최적화 기준 | 지연시간 (Latency) | 처리량 (Throughput) |
1 GPU 주요 구조 — 트리로 이해하기
GPU 내부는 계층적 구조로 이루어져 있다. GPC → SM → CUDA Core 순으로 세분화된다.
GPU ├ GPC (Graphics Processing Cluster): SM들을 관리하는 상위 묶음 │ └ SM (Streaming Multiprocessor) │ ├ CUDA Cores: 일반 연산 (FP32/INT32) │ ├ Tensor Cores: 행렬 연산 가속 (AI/FP4/FP6) │ ├ RT Core: 레이 트레이싱 │ ├ TMEM: Tensor Core 전용 고속 메모리 (Blackwell) │ ├ Warp Scheduler: 명령어 분배 │ ├ Register File: 스레드용 개인 작업 공간 │ └ L1 Cache / Shared Memory: 통합 고속 메모리 ├ L2 Cache: 모든 SM이 공유 (최신 칩 192MB 이상) ├ Memory Controller: VRAM과의 데이터 통로 └ VRAM: HBM3e 또는 HBM4
| 구성 | 역할 |
|---|---|
| CUDA Core | 실제 연산 수행 (FP32/INT32) |
| Tensor Core | 행렬 연산 가속 — AI/딥러닝 특화 |
| TMEM | Tensor Core 전용 고속 메모리 (Blackwell 아키텍처) |
| VRAM | GPU 전용 메모리 |
| SM | GPU 코어 묶음 — 연산의 기본 단위 |
2 실행 모델 — SIMT
GPU는 SIMT(Single Instruction, Multiple Threads) 방식으로 동작한다.
1 Warp = 32 Threads
하나의 명령어가 떨어지면 Warp에 속한 32개 스레드가 각기 다른 데이터를 가지고 동일한 명령어를 동시 실행한다.
하나의 명령어가 떨어지면 Warp에 속한 32개 스레드가 각기 다른 데이터를 가지고 동일한 명령어를 동시 실행한다.
3 VRAM — GPU 전용 메모리
| 구분 | RAM (시스템) | VRAM (GPU) |
|---|---|---|
| 위치 | 메인보드 | GPU 위 |
| 대역폭 | 낮음 | 매우 높음 |
| 지연시간 | 낮음 | 높음 |
VRAM의 핵심은 PCIe 대역폭이다. GPU가 아무리 빨라도 데이터를 전달하는 통로가 좁으면 병목이 생긴다.
4 PCIe 세대별 대역폭
| 규격 | x1 속도 | 레인 수 | 전체 대역폭 |
|---|---|---|---|
| PCIe 4.0 x16 | 2GB/s | 16 | 32GB/s |
| PCIe 5.0 x8 | 4GB/s | 8 | 32GB/s |
| PCIe 5.0 x16 | 4GB/s | 16 | 64GB/s |
PCIe 세대가 최신이면 레인 수가 적어도 이전 세대의 최대 레인 수와 대역폭이 같을 수 있다.
반응형
5 PCIe vs NVLink — 대역폭 비교
PCIe 5.0 x16 (Tree 구조)
이론상 최대 대역폭
양방향 합산 약 128GB/s
양방향 합산 약 128GB/s
NVLink (H100 기준, P2P 구조)
GPU 간 직접 연결
약 900GB/s
AI 학습 다중 GPU에 필수
약 900GB/s
AI 학습 다중 GPU에 필수
6 GPU 아키텍처 세대별 비교
| 아키텍처 | 주요 목적 | 대표 GPU |
|---|---|---|
| Ampere | AI + 그래픽 | A100, RTX 30XX |
| Ada Lovelace | 그래픽 중심 | RTX 40XX |
| Hopper | AI / LLM | H100 |
| Blackwell | 초거대 AI | B100, B200 |
7 TDP와 냉각 시스템
TDP(Thermal Design Power)는 GPU/CPU의 발열 설계 기준이다. TDP가 높을수록 발열이 높고 전력 소비도 높아 냉각 시스템이 반드시 필요하다.
| 환경 | 처리 한계 | 냉각 방식 |
|---|---|---|
| 일반 PC (공랭) | ~500W | 히트파이프 + 팬 |
| 일반 서버 랙 (공랭) | ~20kW | 항온항습기, 차가운 복도 |
| AI 서버 랙 (수냉/침전) | 100kW~600kW+ | 수냉 블록, 냉각탑, 특수 용액 |
핵심 한 줄 요약
GPU병렬 연산 특화 프로세서 — CPU와 역할이 다름
SM / CUDA Core연산의 기본 단위 — 수천 개가 동시 작동
Tensor CoreAI 행렬 연산 전용 가속 코어
SIMT1 Warp = 32 스레드 동시 실행
PCIe vs NVLink128GB/s vs 900GB/s — AI 서버는 NVLink 필수
TDP발열 설계 기준 — 높을수록 고성능 냉각 필요
Tags
#GPU #CUDA #TensorCore #VRAM #SM #SIMT #PCIe #NVLink #HBM #TDP #AI서버 #병렬연산 #딥러닝하드웨어 #하드웨어기초
▼ 티스토리 태그 입력란 복사용
GPU, CUDA, TensorCore, VRAM, SM, SIMT, PCIe, NVLink, HBM, TDP, AI서버, 병렬연산, 딥러닝하드웨어, 하드웨어기초
반응형
'IT공부' 카테고리의 다른 글
| 냉각 시스템 완전 정리 (0) | 2026.05.08 |
|---|---|
| HW 호환성 완전 정리 (0) | 2026.05.08 |
| Storage 완전 정리 - HDD부터 3D NAND, 서버 스토리지 아키텍처까지 (0) | 2026.05.07 |
| CPU가 사용할 데이터를 임시로 저장하는 고속 메모리 — 구조부터 서버 RAM까지 (0) | 2026.05.07 |
| CPU 핵심 구조 완전 정리 (0) | 2026.05.07 |
댓글