Hardware · GPU 심화

GPU 핵심 구조 완전 정리
SM · CUDA Core · VRAM · PCIe · NVLink

GPU는 대량의 데이터를 동시에 처리하기 위해 설계된 병렬 연산 프로세서

개요 CPU vs GPU — 무엇이 다른가?

GPU는 대량의 데이터를 동시에 처리하기 위해 설계된 병렬 연산 프로세서다. CPU와의 핵심 차이를 먼저 이해하면 GPU 구조가 쉽게 잡힌다.

구분	CPU	GPU
설계 목적	범용 연산	병렬 연산
코어 수	적음 (수~수십 개)	매우 많음 (수천~수만 개)
처리 방식	순차 처리	병렬 처리
최적화 기준	지연시간 (Latency)	처리량 (Throughput)

1 GPU 주요 구조 — 트리로 이해하기

GPU 내부는 계층적 구조로 이루어져 있다. GPC → SM → CUDA Core 순으로 세분화된다.

GPU ├ GPC (Graphics Processing Cluster): SM들을 관리하는 상위 묶음 │ └ SM (Streaming Multiprocessor) │ ├ CUDA Cores: 일반 연산 (FP32/INT32) │ ├ Tensor Cores: 행렬 연산 가속 (AI/FP4/FP6) │ ├ RT Core: 레이 트레이싱 │ ├ TMEM: Tensor Core 전용 고속 메모리 (Blackwell) │ ├ Warp Scheduler: 명령어 분배 │ ├ Register File: 스레드용 개인 작업 공간 │ └ L1 Cache / Shared Memory: 통합 고속 메모리 ├ L2 Cache: 모든 SM이 공유 (최신 칩 192MB 이상) ├ Memory Controller: VRAM과의 데이터 통로 └ VRAM: HBM3e 또는 HBM4

구성	역할
CUDA Core	실제 연산 수행 (FP32/INT32)
Tensor Core	행렬 연산 가속 — AI/딥러닝 특화
TMEM	Tensor Core 전용 고속 메모리 (Blackwell 아키텍처)
VRAM	GPU 전용 메모리
SM	GPU 코어 묶음 — 연산의 기본 단위

2 실행 모델 — SIMT

GPU는 SIMT(Single Instruction, Multiple Threads) 방식으로 동작한다.

1 Warp = 32 Threads
하나의 명령어가 떨어지면 Warp에 속한 32개 스레드가 각기 다른 데이터를 가지고 동일한 명령어를 동시 실행한다.

3 VRAM — GPU 전용 메모리

구분	RAM (시스템)	VRAM (GPU)
위치	메인보드	GPU 위
대역폭	낮음	매우 높음
지연시간	낮음	높음

VRAM의 핵심은 PCIe 대역폭이다. GPU가 아무리 빨라도 데이터를 전달하는 통로가 좁으면 병목이 생긴다.

4 PCIe 세대별 대역폭

규격	x1 속도	레인 수	전체 대역폭
PCIe 4.0 x16	2GB/s	16	32GB/s
PCIe 5.0 x8	4GB/s	8	32GB/s
PCIe 5.0 x16	4GB/s	16	64GB/s

PCIe 세대가 최신이면 레인 수가 적어도 이전 세대의 최대 레인 수와 대역폭이 같을 수 있다.

5 PCIe vs NVLink — 대역폭 비교

PCIe 5.0 x16 (Tree 구조)

이론상 최대 대역폭
양방향 합산 약 128GB/s

NVLink (H100 기준, P2P 구조)

GPU 간 직접 연결
약 900GB/s
AI 학습 다중 GPU에 필수

6 GPU 아키텍처 세대별 비교

아키텍처	주요 목적	대표 GPU
Ampere	AI + 그래픽	A100, RTX 30XX
Ada Lovelace	그래픽 중심	RTX 40XX
Hopper	AI / LLM	H100
Blackwell	초거대 AI	B100, B200

7 TDP와 냉각 시스템

TDP(Thermal Design Power)는 GPU/CPU의 발열 설계 기준이다. TDP가 높을수록 발열이 높고 전력 소비도 높아 냉각 시스템이 반드시 필요하다.

환경	처리 한계	냉각 방식
일반 PC (공랭)	~500W	히트파이프 + 팬
일반 서버 랙 (공랭)	~20kW	항온항습기, 차가운 복도
AI 서버 랙 (수냉/침전)	100kW~600kW+	수냉 블록, 냉각탑, 특수 용액

핵심 한 줄 요약

GPU병렬 연산 특화 프로세서 — CPU와 역할이 다름

SM / CUDA Core연산의 기본 단위 — 수천 개가 동시 작동

Tensor CoreAI 행렬 연산 전용 가속 코어

SIMT1 Warp = 32 스레드 동시 실행

PCIe vs NVLink128GB/s vs 900GB/s — AI 서버는 NVLink 필수

TDP발열 설계 기준 — 높을수록 고성능 냉각 필요

'IT공부' 카테고리의 다른 글

냉각 시스템 완전 정리 (0)	2026.05.08
HW 호환성 완전 정리 (0)	2026.05.08
Storage 완전 정리 - HDD부터 3D NAND, 서버 스토리지 아키텍처까지 (0)	2026.05.07
CPU가 사용할 데이터를 임시로 저장하는 고속 메모리 — 구조부터 서버 RAM까지 (0)	2026.05.07
CPU 핵심 구조 완전 정리 (0)	2026.05.07

왕진 블로그

GPU 핵심 구조 완전 정리

GPU 핵심 구조 완전 정리
SM · CUDA Core · VRAM · PCIe · NVLink

핵심 한 줄 요약

Tags

'IT공부' 카테고리의 다른 글

댓글

티스토리툴바

GPU 핵심 구조 완전 정리

GPU 핵심 구조 완전 정리SM · CUDA Core · VRAM · PCIe · NVLink

핵심 한 줄 요약

Tags

'IT공부' 카테고리의 다른 글

관련글

댓글

티스토리툴바

GPU 핵심 구조 완전 정리
SM · CUDA Core · VRAM · PCIe · NVLink