엔비디아 H100, B200, 그리고 곧 나올 루빈(Rubin)까지… AI 인프라 이야기를 하면 다들 GPU 성능만 본다. 근데 진짜 병목은 거기가 아니다. GPU는 데이터를 못 받아서 굶고 있다. 진짜 주인공은 GPU 옆에 딱 붙어있는 손바닥만 한 메모리 칩, HBM이다. 오늘은 이 HBM이 왜 AI 시대의 진짜 심장이 됐는지, 그리고 SK하이닉스와 삼성전자의 10년에 걸친 라이벌 드라마, 마지막엔 차세대 카드 HBF까지 한 번에 정리해본다.
개인적으로 AI 인프라를 보면서 늘 하는 생각이 있다. 사람들이 GPU 성능 좋아진 얘기만 하는데, 실제로 LLM 추론(inference) 시 진짜 병목은 GPU의 연산 능력이 아니다. 메모리에서 데이터를 GPU 코어로 옮기는 속도다. 칩이 아무리 빨라도 데이터가 도달하지 못하면 코어는 그냥 놀고 있다.
다들 GPU 성능 올라간다고 환호하지만, 진짜 게임 체인저는 따로 있다. HBM의 대역폭(Data Bandwidth)이 세대마다 거의 더블로 성장했다는 사실이다. H100의 3.35 TB/s에서 B200의 8.0 TB/s, 그리고 루빈은 13~15 TB/s를 노린다. 이게 GPU FLOPS 향상보다 더 큰 임팩트를 만든 거라고 본다. 메모리 대역폭이 두 배가 되면 사실상 같은 시간에 두 배 큰 모델을 굴릴 수 있는 셈이니까.
실제 데이터를 보면 더 명확해진다. 지난 몇 년간 GPU 연산 성능 증가율과 메모리 대역폭 증가율 사이에는 약 4.7배의 격차가 있다는 분석이 있다. 즉 연산 능력은 메모리보다 훨씬 빠르게 늘어났고, 그 결과 GPU는 데이터를 기다리느라 시간을 더 많이 쓰게 됐다. 이걸 업계에선 "메모리 월(Memory Wall)"이라고 부른다.
WEKA의 CEO 리란 즈비벨은 이런 말을 했다. "엔비디아가 GPU를 더 못 만드는 게 TSMC에서 블랙웰을 더 못 찍어서가 아니다. 그 위에 HBM을 더 붙일 수가 없어서다." 정곡을 찌르는 말이다. AI 데이터센터 전체 시스템 비용에서 HBM이 차지하는 비중이 30~40%까지 올라왔다. 2년 전만 해도 메모리는 그냥 보조 부품이었는데 말이다.
HBM은 High Bandwidth Memory, 그러니까 말 그대로 "고대역폭 메모리"다. 일반 D램(DDR5 같은)을 그냥 옆에 두고 회선 깔아서 쓰는 게 아니라, D램 칩을 수직으로 8단, 12단, 16단으로 쌓아 올린 다음 GPU 바로 옆 인터포저(interposer) 위에 통째로 올려버리는 구조다. 마치 아파트처럼 메모리를 층층이 쌓아서 면적을 줄이고, GPU와의 거리를 극단적으로 짧게 만든 것이다.
HBM의 비밀은 두 가지다. 첫째는 TSV(Through-Silicon Via), 즉 실리콘 칩에 미세한 구멍을 뚫어서 위아래 다이를 수직으로 관통하는 전기 통로를 만드는 기술이다. 둘째는 1024비트(HBM3E 기준), HBM4부터는 2048비트로 두 배 넓어지는 초광폭 인터페이스다. 일반 DDR5가 64비트인 걸 생각하면 도로의 차선 수가 30배 이상 많은 셈.
숫자로 보면 더 와닿는다. HBM3E 한 스택의 대역폭이 약 1.2 TB/s, HBM4는 단일 스택에서 2 TB/s 이상을 뽑아낸다. 삼성전자가 발표한 HBM4는 11.7 Gbps의 동작 속도로 JEDEC 표준 대비 37%, 전 세대 HBM3E(9.6 Gbps) 대비 22% 빠른 수준이다. 12단 적층으로 36GB, 16단으로 가면 48GB까지 단일 패키지 용량이 늘어난다.
| GPU | HBM 세대 | 용량 | 대역폭 |
|---|---|---|---|
| H100 | HBM3 | 80 GB | 3.35 TB/s |
| H200 | HBM3E | 141 GB | 4.8 TB/s |
| B200 (Blackwell) | HBM3E | 192 GB | 8.0 TB/s |
| Rubin R100 (예정) | HBM4 | 288 GB | 13~15 TB/s |
| Rubin Ultra (예정) | HBM4E | 최대 1,024 GB | 20+ TB/s 추정 |
보면 알겠지만 매 세대마다 거의 2배씩 점프하고 있다. 이게 그냥 마케팅 숫자가 아니다. LLM 추론 시 KV 캐시(Key-Value Cache)는 시퀀스 길이에 비례해서 선형으로 늘어나고, 100K 토큰 컨텍스트 한 번 처리하면 GPU HBM의 거의 절반인 40GB가 그냥 날아간다. 그러니 용량과 대역폭이 같이 두 배가 안 되면, 모델은 더 똑똑해질 수가 없다.
이제 진짜 재밌는 얘기다. HBM은 한국 두 회사가 만든 글로벌 시장이다. 세계에서 HBM을 만들 수 있는 회사는 SK하이닉스, 삼성전자, 마이크론 딱 셋뿐. 그중에서도 SK하이닉스와 삼성의 라이벌 구도는 한국 반도체 역사에서 가장 드라마틱한 장면 중 하나다.
사실 삼성전자도 HBM을 안 한 게 아니다. 한때는 SK하이닉스보다 빠른 적도 있었다. 그런데 "이거 시장이 너무 작네" 하고 개발을 사실상 접어버렸다. 그 대신 양산성이 좋고 마진 잘 나오는 GDDR에 집중했다. 당시 HBM 시장은 전체 메모리의 1%도 안 되는, 그야말로 틈새시장이었으니 이상한 결정도 아니었다.
SK하이닉스는 달랐다. 메모리가 거의 전부인 회사라 다른 선택지가 없기도 했고, 한 번 잡은 기술 리더십을 놓치지 않으려고 HBM2, HBM2E, HBM3까지 꾸준히 세대를 이어갔다. 그리고 2022~2023년에 ChatGPT가 터졌다. 게임의 룰이 바뀌었다.
2026년은 진짜 흥미진진하다. 삼성과 SK하이닉스가 같은 달(2월)에 HBM4 양산에 들어갔다. 삼성은 2월 12일 업계 최초 HBM4 양산 출하를 공식 선언했고, SK하이닉스도 같은 시점 양산 라인을 가동했다. 마이크론은 2분기에나 합류한다. 한국이 두 달을 앞서가는 셈이다.
두 회사의 전략은 정반대다. 삼성은 "턴키(Turn-key)" 전략. 메모리(1c D램, 6세대 10나노급), 파운드리(4나노 베이스 다이), 패키징을 모두 자체 해결한다. 세계에서 유일하게 가능한 IDM 구조다. 결과로 동작 속도 11.7 Gbps, 단일 스택 대역폭 3 TB/s라는 업계 최고 스펙을 뽑아냈다.
SK하이닉스는 "동맹" 전략. 검증된 1b D램 + TSMC의 12나노 로직 베이스 다이 + 자사의 MR-MUF 패키징 기술. 스펙은 살짝 보수적이지만 수율과 안정성이 무기다. 카운터포인트리서치 등의 2026년 시장점유율 전망을 보면 결과가 흥미롭다.
| 업체 | 예상 점유율 | 핵심 강점 |
|---|---|---|
| SK하이닉스 | 54~55% | 엔비디아 물량 약 70% 수성, 수율 안정성 |
| 삼성전자 | 28~29% | 업계 최고 스펙(11.7 Gbps), 턴키 솔루션 |
| 마이크론 | 17~18% | 2026년 2분기 양산 시작, 미국 정책 수혜 |
삼성이 "세계 최초 양산" 타이틀을 가져갔지만, 시장은 차분하다. SK하이닉스가 이미 엔비디아와의 신뢰 관계를 단단히 쌓아둔 데다, HBM4부터는 고객사 맞춤형 설계가 들어가서 한 번 자리잡은 공급사를 바꾸기 어렵기 때문이다. 삼성의 반격이 진짜 통할지는 2026년 하반기 엔비디아 루빈 출하량 분배에서 결정될 것 같다.
자, 이제 진짜 재밌는 얘기. HBM이 아무리 빨라져도 용량의 한계는 못 넘는다. D램은 비싸고, 발열이 심하고, 더 적층하기도 어렵다. 그런데 LLM은 점점 거대해지고, 추론 시 KV 캐시는 점점 더 많이 필요해진다. 그래서 등장한 게 HBF (High Bandwidth Flash)다.
한 마디로 "HBM처럼 쌓는데 안에는 D램 대신 NAND 플래시를 넣는 메모리"다. SanDisk와 SK하이닉스가 2025년 8월 MOU를 맺고, 2026년 2월 25일(미국 현지) Sandisk 본사(Milpitas)에서 HBF 표준화 컨소시엄 킥오프 행사를 열며 OCP(Open Compute Project) 산하에 전용 워크스트림을 만들었다.
HBF의 매력은 같은 비용에 HBM 대비 8~16배 용량을 제공한다는 점이다. 1세대 HBF 스펙을 보면 16단 적층 기준 한 스택에 256Gb 다이 × 16 = 512GB 용량에, 읽기 대역폭 1.6 TB/s를 노린다. 즉 HBM4와 비슷한 대역폭에 용량은 10배 가까이.
| 구분 | HBM4 | HBF (Gen 1) |
|---|---|---|
| 저장 매체 | DRAM | NAND Flash (BiCS) |
| 스택당 용량 | 36~48 GB | 최대 512 GB |
| 스택당 대역폭 | 약 2 TB/s | 약 1.6 TB/s |
| 전력 특성 | 리프레시 전력 필요 | 비휘발성, 리프레시 불필요 |
| 주요 용도 | 학습 + 추론 (KV 캐시) | 추론 (모델 가중치, 컨텍스트) |
| 샘플 시기 | 이미 양산 중 | 2026년 하반기 |
재밌는 포인트는 HBF가 HBM을 대체하는 게 아니라 보완한다는 점이다. 학습이나 KV 캐시처럼 자주 쓰이는 데이터는 HBM에, 모델 가중치(frozen weights)나 천천히 바뀌는 컨텍스트 데이터는 HBF에 두는 식이다. 구글이 발표한 논문에서도 정확히 이 분업 구조를 제안하고 있다. 이렇게 하면 비싼 HBM은 동적 데이터 전용으로 쓰고, 모델 자체는 저렴한 HBF에 올려둘 수 있다.
이게 내가 처음에 한 얘기와 연결된다. NAND 기반 데이터 대역폭이 더블 더블로 성장하는 게 진짜 게임 체인저다. HBM은 한계가 있다. D램으로 12단 16단 쌓는 데도 물리적, 발열적 한계가 빠르게 다가오고 있고, 가격도 미친 듯이 올라가는 중이다. HBF는 NAND라는 훨씬 저렴하고 적층 잘 되는 매체로 같은 형태의 패키지를 만들겠다는 발상이라, 이게 표준화되고 양산되기 시작하면 AI 인프라 비용 구조 자체가 다시 한번 뒤집힐 수 있다.
물론 단점도 있다. NAND는 쓰기 횟수에 한계가 있다(write endurance). Phison CEO가 지적한 것처럼 "GPU 카드에 통째로 박힌 NAND가 수명이 다하면 비싼 GPU까지 버려야 하나"라는 우려가 있다. 그래서 모듈식으로 교체 가능한 형태가 더 현실적이라는 주장도 나온다. 어쨌든 첫 샘플 디바이스가 2026년 하반기, 실제 AI 추론 디바이스에 탑재된 제품은 2027년 초 등장 예정이다.
SK하이닉스는 여기서 멈추지 않고, NAND와 모바일 D램을 같이 적층한 HBS (High Bandwidth Storage)까지 검토 중이라는 보도가 나왔다. 스마트폰, 태블릿용 온디바이스 AI를 겨냥한 기술. 메모리 제조사가 점점 SoC 회사처럼 변해가는 흐름이 진짜 흥미롭다.
AI 시대의 진짜 주인공은 GPU가 아니라 그 옆에 붙은 메모리다. HBM은 데이터 대역폭이라는 차원에서 매 세대 거의 두 배씩 도약하면서 AI 모델의 크기와 성능 한계를 계속 밀어내고 있다. SK하이닉스는 10년 외로운 베팅 끝에 시장을 거머쥐었고, 삼성은 2026년 HBM4 턴키 전략으로 반격을 시작했다. 그리고 그 너머에는 NAND 플래시를 같은 형태로 쌓은 HBF가 기다리고 있다. 메모리가 단순한 부품에서 AI 인프라의 운명을 결정하는 핵심 자산으로 바뀐 건 분명하다. 한국 반도체에게는 가장 위험하면서 동시에 가장 매력적인 시간이 시작된 셈이다.
'AI' 카테고리의 다른 글
| IaaS PaaS SaaS 차이부터 FaaS XaaS까지 — 클라우드 서비스 모델 완벽 정리 (0) | 2026.05.10 |
|---|---|
| 클라우드 스토리지 완전정복: 블록·파일·오브젝트 차이와 SDS 회사 총정리 (0) | 2026.05.10 |
| DPU란 무엇인가 | NVIDIA BlueField‑4와 CMX(ICMS)로 보는 AI 인프라의 세 번째 축 (0) | 2026.05.10 |
| 2026년 AI의 진짜 승부처, 에이전틱 하니스(Agentic Harness)란 무엇인가 (0) | 2026.05.10 |
| 바이트댄스 완전 정복 — 장이밍부터 틱톡·두바오·Seedance까지, 알고리즘이 만든 AI 제국 (0) | 2026.05.10 |