지난 30년간 컴퓨팅 시스템의 발목을 잡아온 가장 익숙한 문제 중 하나가 메모리 벽(Memory Wall)입니다. CPU 성능 향상 속도에 비해 DRAM 용량과 대역폭의 발전이 느렸고, LLM(거대 언어 모델)의 확산은 이 격차를 더욱 두드러지게 만들었습니다.
대형 모델 한 번을 추론하는 데에 수백 GB의 메모리가 필요하고, 컨텍스트가 길어질수록 KV Cache가 GPU의 HBM(High Bandwidth Memory)을 빠르게 잠식합니다. HBM은 비싸고 용량이 제한적이며, SSD나 네트워크 너머로 옮기면 성능 대가가 따릅니다.
이러한 상황에서 거론되는 후보 기술 중 하나가 CXL(Compute Express Link)입니다. 일부에서는 "PCIe 5.0 위에 얹은 또 하나의 프로토콜에 불과하다"는 평가도 나옵니다. 물리 계층은 분명히 PCIe와 동일합니다. 다만 그 위에 흐르는 시맨틱이 달라서, 로드/스토어(load/store) 시맨틱과 캐시 일관성을 제공한다는 차별점이 있습니다. 이 차이가 메모리 풀링이나 이종 가속기 협업 같은 영역에서 새로운 설계 옵션을 열어줍니다.
"시맨틱"이라는 단어가 어렵게 들리지만, 풀어 쓰면 그냥 "어떤 방식으로 다루느냐" 정도의 의미입니다. 같은 데이터 접근이라도 어떤 약속·문법으로 주고받느냐에 따라 시맨틱이 달라지고, 이 글에서 자주 비교되는 두 가지가 있습니다.
mov·load·store)으로 끝납니다. 코드 한 줄로 표현됩니다.CXL의 핵심은 원격에 있는 메모리도 마치 로컬 메모리처럼 load/store 한 줄로 다룰 수 있게 한다는 점입니다. 반면 RDMA는 빠르긴 해도 결국 메시지 시맨틱이라 매번 송수신 절차가 따릅니다. KV Cache처럼 작은 단위로 빈번하게 접근하는 워크로드에서 이 절차가 누적되면 무시할 수 없는 차이가 생깁니다.
CXL을 한 줄로 요약하면 다음과 같습니다. "PCIe 5.0/6.0의 물리 계층을 그대로 사용하면서, 그 위에 캐시 일관성을 가진 메모리 시맨틱 프로토콜을 올린 표준."
이를 구성하는 세 가지 서브 프로토콜이 있고, 디바이스 종류에 따라 셋 중 일부만 사용합니다.
위 세 프로토콜의 조합에 따라 CXL 디바이스는 세 가지 타입으로 나뉩니다.
| 타입 | 사용 프로토콜 | 대표 예시 |
|---|---|---|
| Type 1 | CXL.io + CXL.cache | 스마트NIC, 캐시 일관성이 필요한 가속기 (자체 메모리 없음) |
| Type 2 | CXL.io + CXL.cache + CXL.mem | GPU, FPGA 등 자체 메모리를 가진 가속기 (양방향 일관성) |
| Type 3 | CXL.io + CXL.mem | 메모리 확장기, 메모리 풀링 노드. 현재 양산이 가장 활발한 카테고리 |
본 글에서 주로 이야기할 메모리 풀링과 KV Cache 오프로딩 시나리오는 대부분 Type 3 디바이스를 가정합니다. CXL.mem만으로 호스트 CPU가 외부 메모리를 비교적 일관된 방식으로 사용할 수 있게 됩니다.
CXL은 2019년 인텔이 주도해 컨소시엄을 만든 이후 꾸준히 스펙을 발전시켜 왔습니다. 다만 스펙 발표와 실제 양산·배포 사이에는 항상 시차가 존재합니다.
CXL이 데이터센터에서 검토되는 이유는 크게 두 가지 흐름과 맞물립니다. 둘 다 CXL 단독으로 해결되는 문제는 아니지만, CXL이 의미 있게 기여할 수 있는 영역들입니다.
현대 클라우드 데이터센터의 비효율 중 하나로 꼽히는 것이 스트랜디드 메모리(Stranded Memory)입니다. 마이크로소프트 애저(Azure)가 발표한 분석에 따르면, 평균적으로 서버 메모리의 약 25% 정도가 사용되지 못한 채 묶여 있다고 합니다.
평균 Stranded 비율
DRAM 비중
예상 TCO 절감
풀링 도메인
발생 이유는 단순합니다. VM(가상머신)을 띄울 때 CPU 코어와 메모리는 같은 서버에서 함께 할당되어야 하는데, CPU가 먼저 차거나 메모리가 먼저 차는 불균형이 자주 일어납니다. 이 격차가 곧 "버려지는 메모리"입니다.
CXL 메모리 풀링은 이에 대한 한 가지 해법으로 제시됩니다. 메모리를 서버 밖으로 분리해 풀로 묶고 호스트에 동적으로 할당하면 사용률을 끌어올릴 수 있습니다. 다만 풀링이 실제로 효과를 내려면 워크로드 패턴, 스케줄러, 패브릭 거리 등 여러 조건이 맞아야 하며, 모든 데이터센터에서 동일한 효과가 나오는 것은 아닙니다.
두 번째 흐름은 LLM 추론입니다. 모델 파라미터 자체가 거대해졌고, 긴 컨텍스트 추론에서는 KV Cache가 토큰 길이에 비례해 커집니다.
이 KV Cache를 어디로 옮길 것인지에 대한 답은 한 가지가 아닙니다. CPU DRAM, NVMe SSD, RDMA 원격 노드, CXL 메모리 모두가 후보이며, 각각 장단점이 있습니다. CXL은 그중 하나의 선택지로 검토되고 있습니다.
KV Cache 오프로딩의 맥락에서 자주 비교되는 것이 RDMA 기반 분산 캐시와 CXL 메모리 풀입니다. 둘이 경쟁 관계라기보다는, 서로 다른 위치를 지향한다는 표현이 더 정확합니다.
RDMA는 InfiniBand나 RoCE(RDMA over Converged Ethernet) 환경에서 광범위하게 쓰이는 기술입니다. CPU 개입 없이 원격 노드의 메모리에 읽고 쓸 수 있고, HPC와 AI 트레이닝 클러스터에 인프라가 깔려 있습니다. 일부 LLM 사업자(예: DeepSeek 류의 분산 캐시)는 KV Cache를 RDMA 기반 분산 KV 스토어로 오프로딩하는 방식을 채택해 왔으며, 실제로 잘 동작합니다.
RDMA는 결국 네트워크 위에서 동작하기 때문에 P99·P99.9 같은 꼬리 분포에서 변동이 큰 편입니다. 네트워크 혼잡, 패킷 드롭, RNIC 큐잉 등 변동 요인이 다수 존재합니다. RoCE 환경에서 PFC, ECN 튜닝이 어긋나면 P99.9가 밀리초 단위로 튀기도 합니다.
LLM 추론은 자기회귀(autoregressive) 디코딩 구조상 매 토큰마다 KV Cache를 읽습니다. 한 번의 응답에 메모리 접근이 직렬로 누적되기 때문에, 꼬리 분포가 사용자 체감 응답 시간에 영향을 줍니다. 이 영역에서 CXL의 좁은 레이턴시 분포가 의미를 갖는 경우가 있습니다.
- 기존 IB/RoCE 인프라 재활용
- 운영 노하우와 도구가 풍부함
- 대용량 풀 구성과 스케일아웃이 자유
- 이미 양산 환경에서 검증
- 꼬리 분포(P99.9) 변동이 큼
- 네트워크 혼잡에 민감
- 스위치·RNIC 튜닝 비용
- RPC/메시지 시맨틱(load/store 아님)
- 로드/스토어 시맨틱(코드 변경 적음)
- 레이턴시 분포가 좁은 편
- 캐시 일관성 보장
- OS가 NUMA처럼 처리 가능
- 현실적으로 단일 랙 스케일
- 스위치·컨트롤러 생태계 초기
- 패브릭 거리 늘면 레이턴시 증가
- 3.x 멀티 호스트는 본격 도입 전
- 도구·운영 노하우 부족
현장에서는 한쪽만 고집하기보다 계층화된 KV Cache 시스템을 구성하는 사례가 많습니다. GPU HBM이 가장 뜨거운 데이터, 호스트 DRAM과 CXL 메모리가 그 다음 계층, RDMA로 묶인 원격 노드와 NVMe가 가장 차가운 계층을 담당하는 식입니다.
CXL이 거론되는 응용 분야는 폭이 넓지만, 모두가 같은 성숙도에 있는 것은 아닙니다. 양산 단계에 가까운 것과 아직 연구·PoC 수준인 것을 구분해서 보아야 합니다.
CXL 컨소시엄에는 주요 반도체·클라우드 회사가 폭넓게 참여합니다. 다만 참여와 양산·실배포는 별개의 문제입니다. 역할별로 정리하면 다음과 같습니다.
(Sapphire Rapids 이후 본격 지원)
(CXL DRAM 모듈 출시·양산)
· Microchip · Rambus
(2.0 양산, 3.x는 진행 중)
(자체 풀링 아키텍처 연구·도입)
(CXL 1.1/2.0 플랫폼 출시)
(NUMA·tiering 통합 진행 중)
(메모리 모듈 분야 적극 대응)
국내 메모리 반도체 기업은 CXL 모듈 영역에서 적극적으로 대응하고 있습니다. 삼성전자는 CMM-D(CXL Memory Module – DRAM)로 EDSFF 폼팩터의 CXL 메모리 모듈을 공개해 왔고, SK하이닉스도 CMM 시리즈와 자체 컨트롤러 개발을 진행하고 있습니다. 다만 모듈 양산이 곧바로 수익으로 이어지려면 채택 시장(서버 OEM·하이퍼스케일러)의 본격 도입이 뒤따라야 합니다. 이 부분은 아직 진행 중인 과제입니다.
CXL이 가진 잠재력만큼이나, 도입을 검토하는 입장에서 짚고 가야 할 한계가 분명히 있습니다. 오히려 이 부분이 글의 균형을 위해 더 중요한 대목입니다.
CXL 메모리는 로컬 DRAM 대비 약 2~3배의 레이턴시를 가집니다. 200~300ns 수준은 RDMA에 비하면 좋아 보이지만, 캐시 미스가 많은 워크로드에서는 분명히 체감되는 차이입니다. 핫 데이터를 로컬에, 콜드 데이터를 CXL로 분리하는 OS·런타임 차원의 티어링 기술이 받쳐줘야 합니다.
CXL 3.x로 멀티 호스트, 멀티 스위치 구성을 하면 홉이 늘어나고 레이턴시도 올라갑니다. 현실적으로 CXL은 단일 랙(Rack-scale) 도메인에 가장 적합하며, 데이터센터 전체를 패브릭으로 묶는 시나리오는 아직 검토 단계입니다.
2026년 시점에서 CXL 1.1·2.0 디바이스는 양산되고 있지만, 3.x 스위치, 멀티 호스트 풀링, 메모리 공유는 일부 하이퍼스케일러의 자체 솔루션이나 PoC 수준입니다. OS·하이퍼바이저·런타임 단의 통합도 진행 중이며, 도구·운영 노하우가 충분히 쌓이는 데에 시간이 더 필요합니다.
CXL의 효용을 절대화해서는 안 됩니다. HBM 자체의 용량 증가(HBM3, HBM4), GPU 직접 메모리 공유(NVLink, NVL72), 더 빠른 NVMe, 전용 분산 KV 시스템 등 경쟁·보완 솔루션도 동시에 발전하고 있습니다. 어떤 워크로드에서는 굳이 CXL을 쓰지 않는 것이 더 빠르고 단순합니다.
CXL 컨트롤러, 리타이머, 스위치 칩은 아직 비싸고 공급사가 제한적입니다. 단순 메모리 확장 시나리오라면 일반 RDIMM이 비용 효율이 더 좋은 경우도 많습니다. 풀링과 공유로 사용률을 끌어올릴 때 비로소 TCO 우위가 발생하는데, 이것이 가능하려면 운영 측면의 변화가 함께 따라와야 합니다.
CXL 컨소시엄 발표와 산업계 분위기에 비해 실제 양산 채택 속도는 더딘 편입니다. 하이퍼스케일러조차 자체 풀링 아키텍처를 도입한 사례는 제한적이고, 일반 엔터프라이즈로 확산되려면 더 많은 검증과 비용 하락이 필요합니다.
다시 첫 질문으로 돌아가 보겠습니다. "PCIe 5.0 위에 얹은 프로토콜인데 왜 주목받는가?"
답은 두 가지로 나눠 보아야 합니다. 한편으로 CXL은 "메모리를 서버에서 분리하라"는 디스어그리게이션(disaggregation) 흐름의 표준 인터페이스입니다. CPU와 메모리가 한 보드에 묶여 있어야 한다는 30년의 통념이 AI 시대에 흔들리고 있고, CXL은 그 변화를 매개할 후보 기술 중 하나입니다.
다른 한편으로, CXL이 그 비전을 단번에 실현하지는 못합니다. 양산 단계에 와 있는 것은 일부 시나리오뿐이고, 실제 채택 속도는 컨소시엄 발표보다 느립니다. 경쟁·보완 기술도 함께 발전하고 있고, 워크로드에 따라 더 단순한 해법이 더 적합한 경우도 많습니다.
RDMA가 "원격 메모리에 메시지로 접근"하는 길을 열었다면, CXL은 "원격 메모리를 로컬처럼 로드/스토어로 다루는" 길의 표준화를 시도하고 있습니다. 둘은 경쟁이 아니라 각자의 자리에서 보완하는 방향으로 정착하고 있고, 실제 빅테크의 KV Cache 시스템도 양쪽을 함께 사용하는 계층적 설계를 택합니다.
2026년의 CXL은 아직 "가능성이 분명하지만 갈 길이 남아 있는" 기술입니다. 향후 2~3년이 양산 채택의 분기점이 될 가능성이 높고, 이 시기에 모듈·컨트롤러·스위치·소프트웨어 생태계가 어떻게 맞물려 발전하느냐가 관건입니다. 과대평가도 과소평가도 곤란합니다. 워크로드에 맞게 균형감 있게 도입하는 자세가 가장 중요합니다.
· 리눅스 커널의 Memory Tiering(MGLRU·DAMON)과 CXL 통합
· CXL.cache 기반 협업과 NVLink·UVM의 비교
· CXL 3.x 멀티 호스트 메모리 공유의 일관성 모델
· 삼성·SK하이닉스 CMM 모듈 라인업 비교
'AI' 카테고리의 다른 글
| 디퓨전 모델(Diffusion Model)의 모든 것: 노이즈가 그림이 되는 과정과 정확도 향상 전략 (0) | 2026.05.15 |
|---|---|
| AI 연산의 정체는 결국 행렬 곱셈입니다: LLM·추천시스템·벡터검색 핵심 연산 완전 정복 (0) | 2026.05.15 |
| AI 산업을 움직이는 핵심 인재 TOP 30: 국적 분포로 본 글로벌 패권 경쟁 (2026) (0) | 2026.05.15 |
| AI 시대, 애플은 도대체 뭘 하고 있는가 (0) | 2026.05.14 |
| AI 시대, 소형원자로(SMR)가 답이 될 수 있을까? 글로벌 빅테크가 원자력에 베팅하는 진짜 이유 (0) | 2026.05.14 |