AI

HBM이란 무엇인가: AI 인프라의 진짜 병목과 SK하이닉스 vs 삼성전자 10년 라이벌 드라마, 그리고 차세대 HBF까지

marvin-jung 2026. 5. 10. 16:37
반응형
SMALL
HBM이란 무엇인가: AI 인프라의 진짜 병목과 SK하이닉스 vs 삼성전자 10년 라이벌 드라마, 그리고 차세대 HBF까지
GPU 성능 경쟁의 이면, 메모리 대역폭이 AI 시대를 결정짓는다

엔비디아 H100, B200, 그리고 곧 나올 루빈(Rubin)까지… AI 인프라 이야기를 하면 다들 GPU 성능만 본다. 근데 진짜 병목은 거기가 아니다. GPU는 데이터를 못 받아서 굶고 있다. 진짜 주인공은 GPU 옆에 딱 붙어있는 손바닥만 한 메모리 칩, HBM이다. 오늘은 이 HBM이 왜 AI 시대의 진짜 심장이 됐는지, 그리고 SK하이닉스와 삼성전자의 10년에 걸친 라이벌 드라마, 마지막엔 차세대 카드 HBF까지 한 번에 정리해본다.

GPU 성능보다 진짜 중요한 건 메모리 대역폭이다

개인적으로 AI 인프라를 보면서 늘 하는 생각이 있다. 사람들이 GPU 성능 좋아진 얘기만 하는데, 실제로 LLM 추론(inference) 시 진짜 병목은 GPU의 연산 능력이 아니다. 메모리에서 데이터를 GPU 코어로 옮기는 속도다. 칩이 아무리 빨라도 데이터가 도달하지 못하면 코어는 그냥 놀고 있다.

개인 의견

다들 GPU 성능 올라간다고 환호하지만, 진짜 게임 체인저는 따로 있다. HBM의 대역폭(Data Bandwidth)이 세대마다 거의 더블로 성장했다는 사실이다. H100의 3.35 TB/s에서 B200의 8.0 TB/s, 그리고 루빈은 13~15 TB/s를 노린다. 이게 GPU FLOPS 향상보다 더 큰 임팩트를 만든 거라고 본다. 메모리 대역폭이 두 배가 되면 사실상 같은 시간에 두 배 큰 모델을 굴릴 수 있는 셈이니까.

실제 데이터를 보면 더 명확해진다. 지난 몇 년간 GPU 연산 성능 증가율과 메모리 대역폭 증가율 사이에는 약 4.7배의 격차가 있다는 분석이 있다. 즉 연산 능력은 메모리보다 훨씬 빠르게 늘어났고, 그 결과 GPU는 데이터를 기다리느라 시간을 더 많이 쓰게 됐다. 이걸 업계에선 "메모리 월(Memory Wall)"이라고 부른다.

WEKA의 CEO 리란 즈비벨은 이런 말을 했다. "엔비디아가 GPU를 더 못 만드는 게 TSMC에서 블랙웰을 더 못 찍어서가 아니다. 그 위에 HBM을 더 붙일 수가 없어서다." 정곡을 찌르는 말이다. AI 데이터센터 전체 시스템 비용에서 HBM이 차지하는 비중이 30~40%까지 올라왔다. 2년 전만 해도 메모리는 그냥 보조 부품이었는데 말이다.

그래서 HBM이 도대체 뭔데?

HBM은 High Bandwidth Memory, 그러니까 말 그대로 "고대역폭 메모리"다. 일반 D램(DDR5 같은)을 그냥 옆에 두고 회선 깔아서 쓰는 게 아니라, D램 칩을 수직으로 8단, 12단, 16단으로 쌓아 올린 다음 GPU 바로 옆 인터포저(interposer) 위에 통째로 올려버리는 구조다. 마치 아파트처럼 메모리를 층층이 쌓아서 면적을 줄이고, GPU와의 거리를 극단적으로 짧게 만든 것이다.

핵심 기술

HBM의 비밀은 두 가지다. 첫째는 TSV(Through-Silicon Via), 즉 실리콘 칩에 미세한 구멍을 뚫어서 위아래 다이를 수직으로 관통하는 전기 통로를 만드는 기술이다. 둘째는 1024비트(HBM3E 기준), HBM4부터는 2048비트로 두 배 넓어지는 초광폭 인터페이스다. 일반 DDR5가 64비트인 걸 생각하면 도로의 차선 수가 30배 이상 많은 셈.

숫자로 보면 더 와닿는다. HBM3E 한 스택의 대역폭이 약 1.2 TB/s, HBM4는 단일 스택에서 2 TB/s 이상을 뽑아낸다. 삼성전자가 발표한 HBM4는 11.7 Gbps의 동작 속도로 JEDEC 표준 대비 37%, 전 세대 HBM3E(9.6 Gbps) 대비 22% 빠른 수준이다. 12단 적층으로 36GB, 16단으로 가면 48GB까지 단일 패키지 용량이 늘어난다.

엔비디아 GPU 세대별 HBM 진화
GPU HBM 세대 용량 대역폭
H100 HBM3 80 GB 3.35 TB/s
H200 HBM3E 141 GB 4.8 TB/s
B200 (Blackwell) HBM3E 192 GB 8.0 TB/s
Rubin R100 (예정) HBM4 288 GB 13~15 TB/s
Rubin Ultra (예정) HBM4E 최대 1,024 GB 20+ TB/s 추정

보면 알겠지만 매 세대마다 거의 2배씩 점프하고 있다. 이게 그냥 마케팅 숫자가 아니다. LLM 추론 시 KV 캐시(Key-Value Cache)는 시퀀스 길이에 비례해서 선형으로 늘어나고, 100K 토큰 컨텍스트 한 번 처리하면 GPU HBM의 거의 절반인 40GB가 그냥 날아간다. 그러니 용량과 대역폭이 같이 두 배가 안 되면, 모델은 더 똑똑해질 수가 없다.

SK하이닉스 vs 삼성전자: 10년에 걸친 역전 드라마

이제 진짜 재밌는 얘기다. HBM은 한국 두 회사가 만든 글로벌 시장이다. 세계에서 HBM을 만들 수 있는 회사는 SK하이닉스, 삼성전자, 마이크론 딱 셋뿐. 그중에서도 SK하이닉스와 삼성의 라이벌 구도는 한국 반도체 역사에서 가장 드라마틱한 장면 중 하나다.

2010~2015: SK하이닉스의 외로운 베팅
2010 SK하이닉스, AMD와 손잡고 HBM 공동 연구 착수
당시엔 AI 시장이라는 개념조차 없었다. KAIST 김정호 교수의 아이디어가 원형이 됐고, SK하이닉스는 "언젠가 초고속 대용량 데이터 처리 시대가 올 것"이라며 이 틈새 기술에 베팅했다.
2013 SK하이닉스, 세계 최초 HBM 개발 성공
JEDEC 산업 표준 JESD235로 채택. 한국 반도체 회사가 처음으로 글로벌 메모리 표준을 주도한 순간이었다.
2015 AMD 라데온 R9 Fury X에 HBM1 첫 탑재
256MB D램 4단 적층으로 1GB. 지금 보면 귀여운 수준이지만 이때부터 HBM의 상용화가 시작됐다.
2016~2022: 삼성의 "잠깐 했다가 접어버린" 시절

사실 삼성전자도 HBM을 안 한 게 아니다. 한때는 SK하이닉스보다 빠른 적도 있었다. 그런데 "이거 시장이 너무 작네" 하고 개발을 사실상 접어버렸다. 그 대신 양산성이 좋고 마진 잘 나오는 GDDR에 집중했다. 당시 HBM 시장은 전체 메모리의 1%도 안 되는, 그야말로 틈새시장이었으니 이상한 결정도 아니었다.

SK하이닉스는 달랐다. 메모리가 거의 전부인 회사라 다른 선택지가 없기도 했고, 한 번 잡은 기술 리더십을 놓치지 않으려고 HBM2, HBM2E, HBM3까지 꾸준히 세대를 이어갔다. 그리고 2022~2023년에 ChatGPT가 터졌다. 게임의 룰이 바뀌었다.

2023~2025: 엔비디아 독점 공급, 그리고 분기 매출 역전
2023.08 SK하이닉스, HBM3E 개발 성공
AI 광풍이 분 직후. 엔비디아 H100, H200에 HBM3와 HBM3E를 사실상 독점 공급하면서 매출이 폭발했다.
2024.05 삼성 HBM3E, 엔비디아 퀄 테스트 통과 실패 보도
로이터가 보도한 충격적인 뉴스. 삼성은 "사실과 다르다"고 해명했지만 시장은 흔들렸다. 결국 8월에야 8단 제품이 통과됐다.
2024.09 SK하이닉스, 세계 최초 HBM3E 12단 36GB 양산
B200, GB200, AMD MI325/MI350의 절반 이상에 SK하이닉스의 12단 HBM3E가 채택됐다.
2025.Q1 SK하이닉스, 분기 D램 매출에서 삼성전자 첫 추월
창사 이래 처음. HBM이 일반 D램의 5~6배 가격이라 매출과 영업이익률이 같이 폭등했다. "메모리 1등은 삼성"이라는 30년 공식이 깨진 사건.
2025.09 SK하이닉스, 세계 최초 HBM4 12단 샘플 엔비디아 공급
TSMC와 손잡고 12나노 로직 공정 베이스 다이를 결합한 새로운 아키텍처. "HBM은 더이상 메모리만의 게임이 아니다"라는 신호.
2026: 삼성의 반격, "턴키 vs 동맹"

2026년은 진짜 흥미진진하다. 삼성과 SK하이닉스가 같은 달(2월)에 HBM4 양산에 들어갔다. 삼성은 2월 12일 업계 최초 HBM4 양산 출하를 공식 선언했고, SK하이닉스도 같은 시점 양산 라인을 가동했다. 마이크론은 2분기에나 합류한다. 한국이 두 달을 앞서가는 셈이다.

두 회사의 전략은 정반대다. 삼성은 "턴키(Turn-key)" 전략. 메모리(1c D램, 6세대 10나노급), 파운드리(4나노 베이스 다이), 패키징을 모두 자체 해결한다. 세계에서 유일하게 가능한 IDM 구조다. 결과로 동작 속도 11.7 Gbps, 단일 스택 대역폭 3 TB/s라는 업계 최고 스펙을 뽑아냈다.

SK하이닉스는 "동맹" 전략. 검증된 1b D램 + TSMC의 12나노 로직 베이스 다이 + 자사의 MR-MUF 패키징 기술. 스펙은 살짝 보수적이지만 수율과 안정성이 무기다. 카운터포인트리서치 등의 2026년 시장점유율 전망을 보면 결과가 흥미롭다.

2026년 HBM4 시장점유율 전망
업체 예상 점유율 핵심 강점
SK하이닉스 54~55% 엔비디아 물량 약 70% 수성, 수율 안정성
삼성전자 28~29% 업계 최고 스펙(11.7 Gbps), 턴키 솔루션
마이크론 17~18% 2026년 2분기 양산 시작, 미국 정책 수혜
관전 포인트

삼성이 "세계 최초 양산" 타이틀을 가져갔지만, 시장은 차분하다. SK하이닉스가 이미 엔비디아와의 신뢰 관계를 단단히 쌓아둔 데다, HBM4부터는 고객사 맞춤형 설계가 들어가서 한 번 자리잡은 공급사를 바꾸기 어렵기 때문이다. 삼성의 반격이 진짜 통할지는 2026년 하반기 엔비디아 루빈 출하량 분배에서 결정될 것 같다.

그리고 그 다음: HBF (High Bandwidth Flash)

자, 이제 진짜 재밌는 얘기. HBM이 아무리 빨라져도 용량의 한계는 못 넘는다. D램은 비싸고, 발열이 심하고, 더 적층하기도 어렵다. 그런데 LLM은 점점 거대해지고, 추론 시 KV 캐시는 점점 더 많이 필요해진다. 그래서 등장한 게 HBF (High Bandwidth Flash)다.

HBF란?

한 마디로 "HBM처럼 쌓는데 안에는 D램 대신 NAND 플래시를 넣는 메모리"다. SanDisk와 SK하이닉스가 2025년 8월 MOU를 맺고, 2026년 2월 25일(미국 현지) Sandisk 본사(Milpitas)에서 HBF 표준화 컨소시엄 킥오프 행사를 열며 OCP(Open Compute Project) 산하에 전용 워크스트림을 만들었다.

HBF의 매력은 같은 비용에 HBM 대비 8~16배 용량을 제공한다는 점이다. 1세대 HBF 스펙을 보면 16단 적층 기준 한 스택에 256Gb 다이 × 16 = 512GB 용량에, 읽기 대역폭 1.6 TB/s를 노린다. 즉 HBM4와 비슷한 대역폭에 용량은 10배 가까이.

HBM vs HBF 한눈 비교
구분 HBM4 HBF (Gen 1)
저장 매체 DRAM NAND Flash (BiCS)
스택당 용량 36~48 GB 최대 512 GB
스택당 대역폭 약 2 TB/s 약 1.6 TB/s
전력 특성 리프레시 전력 필요 비휘발성, 리프레시 불필요
주요 용도 학습 + 추론 (KV 캐시) 추론 (모델 가중치, 컨텍스트)
샘플 시기 이미 양산 중 2026년 하반기

재밌는 포인트는 HBF가 HBM을 대체하는 게 아니라 보완한다는 점이다. 학습이나 KV 캐시처럼 자주 쓰이는 데이터는 HBM에, 모델 가중치(frozen weights)나 천천히 바뀌는 컨텍스트 데이터는 HBF에 두는 식이다. 구글이 발표한 논문에서도 정확히 이 분업 구조를 제안하고 있다. 이렇게 하면 비싼 HBM은 동적 데이터 전용으로 쓰고, 모델 자체는 저렴한 HBF에 올려둘 수 있다.

개인 의견

이게 내가 처음에 한 얘기와 연결된다. NAND 기반 데이터 대역폭이 더블 더블로 성장하는 게 진짜 게임 체인저다. HBM은 한계가 있다. D램으로 12단 16단 쌓는 데도 물리적, 발열적 한계가 빠르게 다가오고 있고, 가격도 미친 듯이 올라가는 중이다. HBF는 NAND라는 훨씬 저렴하고 적층 잘 되는 매체로 같은 형태의 패키지를 만들겠다는 발상이라, 이게 표준화되고 양산되기 시작하면 AI 인프라 비용 구조 자체가 다시 한번 뒤집힐 수 있다.

물론 단점도 있다. NAND는 쓰기 횟수에 한계가 있다(write endurance). Phison CEO가 지적한 것처럼 "GPU 카드에 통째로 박힌 NAND가 수명이 다하면 비싼 GPU까지 버려야 하나"라는 우려가 있다. 그래서 모듈식으로 교체 가능한 형태가 더 현실적이라는 주장도 나온다. 어쨌든 첫 샘플 디바이스가 2026년 하반기, 실제 AI 추론 디바이스에 탑재된 제품은 2027년 초 등장 예정이다.

SK하이닉스는 여기서 멈추지 않고, NAND와 모바일 D램을 같이 적층한 HBS (High Bandwidth Storage)까지 검토 중이라는 보도가 나왔다. 스마트폰, 태블릿용 온디바이스 AI를 겨냥한 기술. 메모리 제조사가 점점 SoC 회사처럼 변해가는 흐름이 진짜 흥미롭다.

정리하자면

AI 시대의 진짜 주인공은 GPU가 아니라 그 옆에 붙은 메모리다. HBM은 데이터 대역폭이라는 차원에서 매 세대 거의 두 배씩 도약하면서 AI 모델의 크기와 성능 한계를 계속 밀어내고 있다. SK하이닉스는 10년 외로운 베팅 끝에 시장을 거머쥐었고, 삼성은 2026년 HBM4 턴키 전략으로 반격을 시작했다. 그리고 그 너머에는 NAND 플래시를 같은 형태로 쌓은 HBF가 기다리고 있다. 메모리가 단순한 부품에서 AI 인프라의 운명을 결정하는 핵심 자산으로 바뀐 건 분명하다. 한국 반도체에게는 가장 위험하면서 동시에 가장 매력적인 시간이 시작된 셈이다.

#태그
#HBM #HBM4 #SK하이닉스 #삼성전자 #엔비디아루빈 #AI반도체 #고대역폭메모리 #HBF #메모리반도체 #AI인프라
반응형
LIST