본문 바로가기
IT공부

GPU 핵심 구조 완전 정리

by 왕진 2026. 5. 7.
반응형

 

 

Hardware · GPU 심화

GPU 핵심 구조 완전 정리
SM · CUDA Core · VRAM · PCIe · NVLink

GPU는 대량의 데이터를 동시에 처리하기 위해 설계된 병렬 연산 프로세서
개요 CPU vs GPU — 무엇이 다른가?

GPU는 대량의 데이터를 동시에 처리하기 위해 설계된 병렬 연산 프로세서다. CPU와의 핵심 차이를 먼저 이해하면 GPU 구조가 쉽게 잡힌다.

구분 CPU GPU
설계 목적 범용 연산 병렬 연산
코어 수 적음 (수~수십 개) 매우 많음 (수천~수만 개)
처리 방식 순차 처리 병렬 처리
최적화 기준 지연시간 (Latency) 처리량 (Throughput)

1 GPU 주요 구조 — 트리로 이해하기

GPU 내부는 계층적 구조로 이루어져 있다. GPC → SM → CUDA Core 순으로 세분화된다.

GPU ├ GPC (Graphics Processing Cluster): SM들을 관리하는 상위 묶음 │ └ SM (Streaming Multiprocessor) │ ├ CUDA Cores: 일반 연산 (FP32/INT32) │ ├ Tensor Cores: 행렬 연산 가속 (AI/FP4/FP6) │ ├ RT Core: 레이 트레이싱 │ ├ TMEM: Tensor Core 전용 고속 메모리 (Blackwell) │ ├ Warp Scheduler: 명령어 분배 │ ├ Register File: 스레드용 개인 작업 공간 │ └ L1 Cache / Shared Memory: 통합 고속 메모리 ├ L2 Cache: 모든 SM이 공유 (최신 칩 192MB 이상) ├ Memory Controller: VRAM과의 데이터 통로 └ VRAM: HBM3e 또는 HBM4
구성 역할
CUDA Core 실제 연산 수행 (FP32/INT32)
Tensor Core 행렬 연산 가속 — AI/딥러닝 특화
TMEM Tensor Core 전용 고속 메모리 (Blackwell 아키텍처)
VRAM GPU 전용 메모리
SM GPU 코어 묶음 — 연산의 기본 단위

2 실행 모델 — SIMT

GPU는 SIMT(Single Instruction, Multiple Threads) 방식으로 동작한다.

1 Warp = 32 Threads
하나의 명령어가 떨어지면 Warp에 속한 32개 스레드가 각기 다른 데이터를 가지고 동일한 명령어를 동시 실행한다.

3 VRAM — GPU 전용 메모리
구분 RAM (시스템) VRAM (GPU)
위치 메인보드 GPU 위
대역폭 낮음 매우 높음
지연시간 낮음 높음
VRAM의 핵심은 PCIe 대역폭이다. GPU가 아무리 빨라도 데이터를 전달하는 통로가 좁으면 병목이 생긴다.

4 PCIe 세대별 대역폭
규격 x1 속도 레인 수 전체 대역폭
PCIe 4.0 x16 2GB/s 16 32GB/s
PCIe 5.0 x8 4GB/s 8 32GB/s
PCIe 5.0 x16 4GB/s 16 64GB/s
PCIe 세대가 최신이면 레인 수가 적어도 이전 세대의 최대 레인 수와 대역폭이 같을 수 있다.

반응형
5 PCIe vs NVLink — 대역폭 비교
PCIe 5.0 x16 (Tree 구조)
이론상 최대 대역폭
양방향 합산 약 128GB/s
NVLink (H100 기준, P2P 구조)
GPU 간 직접 연결
약 900GB/s
AI 학습 다중 GPU에 필수

6 GPU 아키텍처 세대별 비교
아키텍처 주요 목적 대표 GPU
Ampere AI + 그래픽 A100, RTX 30XX
Ada Lovelace 그래픽 중심 RTX 40XX
Hopper AI / LLM H100
Blackwell 초거대 AI B100, B200

7 TDP와 냉각 시스템

TDP(Thermal Design Power)는 GPU/CPU의 발열 설계 기준이다. TDP가 높을수록 발열이 높고 전력 소비도 높아 냉각 시스템이 반드시 필요하다.

환경 처리 한계 냉각 방식
일반 PC (공랭) ~500W 히트파이프 + 팬
일반 서버 랙 (공랭) ~20kW 항온항습기, 차가운 복도
AI 서버 랙 (수냉/침전) 100kW~600kW+ 수냉 블록, 냉각탑, 특수 용액

핵심 한 줄 요약

GPU병렬 연산 특화 프로세서 — CPU와 역할이 다름
SM / CUDA Core연산의 기본 단위 — 수천 개가 동시 작동
Tensor CoreAI 행렬 연산 전용 가속 코어
SIMT1 Warp = 32 스레드 동시 실행
PCIe vs NVLink128GB/s vs 900GB/s — AI 서버는 NVLink 필수
TDP발열 설계 기준 — 높을수록 고성능 냉각 필요

Tags

#GPU #CUDA #TensorCore #VRAM #SM #SIMT #PCIe #NVLink #HBM #TDP #AI서버 #병렬연산 #딥러닝하드웨어 #하드웨어기초
▼ 티스토리 태그 입력란 복사용
GPU, CUDA, TensorCore, VRAM, SM, SIMT, PCIe, NVLink, HBM, TDP, AI서버, 병렬연산, 딥러닝하드웨어, 하드웨어기초
반응형

댓글