AI

DPU란 무엇인가 | NVIDIA BlueField‑4와 CMX(ICMS)로 보는 AI 인프라의 세 번째 축

marvin-jung 2026. 5. 10. 16:33
반응형
SMALL
DPU란 무엇인가 | NVIDIA BlueField‑4와 CMX(ICMS)로 보는 AI 인프라의 세 번째 축
CPU·GPU에 이은 세 번째 컴퓨팅 축, DPU. 2026 GTC에서 공개된 NVIDIA CMX는 BlueField‑4를 KV 캐시 전용 메모리 계층의 중심에 앉혔습니다.

CPU와 GPU만으로 데이터센터가 돌아가던 시대는 끝났습니다. 2026년 3월 GTC에서 NVIDIA가 공개한 CMX(Context Memory eXtension, 이전 이름 ICMS)는 BlueField‑4 DPU를 앞세워 GPU 메모리의 한계를 정면으로 돌파합니다. 에이전틱 AI와 수백만 토큰 컨텍스트 시대에 왜 DPU가 "세 번째 축"으로 불리는지, 그리고 CMX가 왜 메모리·스토리지 산업 전체를 흔들고 있는지 정리했습니다.

DPU란 무엇인가 — 컴퓨팅의 세 번째 축

DPU는 Data Processing Unit의 약자입니다. 우리말로는 "데이터 처리 장치" 정도로 옮길 수 있지만, 정작 한국에서는 영어 약자 그대로 통용되고 있습니다. NVIDIA CEO 젠슨 황은 2020년부터 일관되게 "CPU는 범용 컴퓨팅, GPU는 가속 컴퓨팅, DPU는 데이터 처리"라고 정의해 왔고, 이 세 가지가 앞으로 데이터센터의 세 축이 될 거라고 강조해 왔습니다.

이름만 보면 "그럼 CPU도 데이터 처리하지 않나?"라고 반문할 수 있지만, DPU가 처리하는 데이터는 결이 다릅니다. 서버와 서버 사이를 오가는 데이터, 스토리지와 GPU 사이를 오가는 데이터, 가상화·암호화·보안 검사를 거쳐야 하는 데이터 — 이른바 "인프라 작업"을 전담하는 칩이 DPU입니다.

구조적으로 DPU는 세 가지 핵심 요소로 만들어진 SoC(System on Chip)입니다. 첫째는 ARM 기반 멀티코어 CPU, 둘째는 라인 레이트(line‑rate) 처리가 가능한 고성능 네트워크 인터페이스, 셋째는 RDMA·암호·압축·OVS 같은 하드웨어 가속 엔진입니다. 한 마디로 NIC(네트워크 카드)에 작은 컴퓨터 한 대를 통째로 얹은 셈입니다.

CPU · GPU · DPU, 어떻게 다른가
구분 핵심 역할 아키텍처 특성 대표 제품
CPU OS·애플리케이션 실행, 범용 연산 소수의 강력한 코어, 복잡한 분기 처리, 직렬 처리에 강함 Intel Xeon, AMD EPYC, ARM Grace
GPU 병렬 연산, AI 학습·추론, 그래픽 수천 개의 단순 코어, 행렬·텐서 연산에 특화 NVIDIA Hopper, Blackwell, Rubin
DPU 데이터 이동·보안·스토리지 오프로드 ARM 코어 + 고성능 NIC + 가속 엔진의 결합 NVIDIA BlueField‑3 / 4, AMD Pensando

DPU의 존재 이유는 의외로 단순합니다. "CPU는 비싼 자원인데, 정작 패킷 처리·암호화·가상 스위칭처럼 별로 똑똑할 필요 없는 일에 시간을 너무 많이 빼앗긴다"는 문제의식입니다. 한 연구에서는 데이터센터 CPU 사이클의 30% 가까이가 이런 인프라 잡무에 쓰인다고 지적하기도 했습니다 — 이른바 "데이터센터 세금(datacenter tax)"입니다. DPU는 그 세금을 대신 내주는 칩입니다.

NVIDIA BlueField — DPU 시장의 사실상 표준

"DPU = NVIDIA BlueField"라고 해도 크게 틀리지 않을 정도로, 현재 시장은 NVIDIA가 압도적으로 주도하고 있습니다. BlueField는 원래 2019년 NVIDIA가 인수한 멜라녹스(Mellanox)의 ConnectX NIC 라인에서 출발했고, 인수 이후 ARM 코어와 가속기를 본격적으로 통합하면서 지금의 DPU 형태가 잡혔습니다.

BlueField의 진화
세대 네트워크 주요 특징
BlueField‑2 200 Gb/s VMware Project Monterey, OCI 등 초기 채택. ARM A72 8코어.
BlueField‑3 400 Gb/s ARM A78 16코어. SuperNIC 모드로 RoCE 가속, AI 데이터센터 본격 진출.
BlueField‑4 800 Gb/s ConnectX‑9 + Grace CPU 통합. 2026년 GTC에서 CMX와 함께 공개.

주목할 점은 BlueField‑4입니다. 단순히 대역폭만 두 배로 늘어난 게 아니라, ConnectX‑9 NIC와 NVIDIA Grace CPU(ARM Neoverse 기반)가 한 칩에 통합되었습니다. 이 말은 DPU가 더 이상 "보조 칩" 수준이 아니라, 그 자체로 작은 추론 노드 역할까지 할 수 있다는 뜻입니다. 그리고 이 변화가 바로 우리가 다음에 살펴볼 CMX의 전제 조건입니다.

[특집] CMX(ICMS) — BlueField‑4가 만드는 새로운 메모리 계층
2026 GTC 발표

NVIDIA가 2026년 3월 GTC에서 발표한 CMX(Context Memory eXtension)는 처음 발표 당시 ICMS(Inference Context Memory Storage)라는 이름으로 공개되었다가, 정식 제품 단계에서 CMX로 리브랜딩되었습니다. 두 이름은 사실상 같은 것을 가리킵니다.

왜 CMX가 필요해졌나 — KV 캐시의 폭발

요즘 LLM 추론에서 가장 큰 골칫거리는 KV 캐시(Key‑Value Cache)입니다. 트랜스포머 모델은 어텐션 연산을 위해 이전 토큰들의 K(키)·V(값) 벡터를 메모리에 들고 있어야 하는데, 컨텍스트 길이가 길어질수록 이 캐시가 폭발적으로 커집니다.

예를 들어 100만 토큰 컨텍스트를 가진 에이전트가 여러 개 동시에 동작하면, 각 세션마다 수십~수백 GB의 KV 캐시가 필요합니다. GPU의 HBM은 비싸고 용량이 한정되어 있어 이걸 다 담을 수 없고, 그렇다고 매번 다시 계산하자니 GPU가 놀고 있는 시간(idle)이 너무 길어집니다. 결국 "GPU HBM과 일반 NVMe 스토리지 사이에 새로운 계층이 필요하다"는 결론에 도달한 것이 CMX입니다.

CMX가 자리잡는 위치 — 메모리 계층 구조
▼ AI 추론을 위한 메모리·스토리지 계층 (NVIDIA Rubin 기준)
~ns
G1 · GPU HBM초고속 · 용량 작음 · 매우 비쌈 (SK하이닉스·삼성 HBM3E/HBM4)
~수십 ns
G2 · CPU DRAM (Grace 등)GPU에서 RDMA로 접근 가능한 호스트 메모리
~μs
G3.5 · CMX (BlueField‑4 + NVMe Flash) ⭐ NEW페타바이트급 컨텍스트 메모리 · KV 캐시 전용 · RDMA 가속
~ms
G4 · 일반 NVMe 스토리지기존 데이터 레이크, 모델 가중치, 일반 데이터셋
~ms 이상
G5 · 오브젝트 스토리지 (S3 등)장기 보관·아카이브

여기서 가장 중요한 게 G3.5 계층입니다. NVIDIA는 이 계층을 일부러 정수가 아닌 "3.5"로 명명했는데, 기존 G3(NVMe)와는 결이 다른, 플래시 기반이지만 거의 메모리처럼 동작하는 새로운 티어라는 뜻을 담고 있습니다. 그리고 이 G3.5를 가능하게 하는 핵심이 BlueField‑4입니다.

BlueField‑4가 CMX에서 하는 일

CMX 인클로저(enclosure) 한 대에는 BlueField‑4 DPU 4개와 600TB의 NVMe 플래시가 들어갑니다. 그리고 NVIDIA Rubin 슈퍼팟(SuperPOD) 한 단위에는 이런 인클로저가 36대 들어가, 총 약 18,432TB(약 18 PB)의 컨텍스트 메모리 풀이 만들어집니다. 이 거대한 풀을 작동시키는 일이 거의 전부 BlueField‑4 위에서 일어납니다.

  1. KV I/O 평면(plane) 가속 호스트 CPU를 거치지 않고 GPU 노드와 CMX 트레이 사이에서 KV 블록을 주고받는 모든 I/O를 BlueField‑4가 직접 처리합니다. NVMe‑oF, RDMA, 오브젝트 프로토콜이 DPU 내부에서 종단(termination)됩니다.
  2. 암호·무결성 가속 KV 데이터의 암호화·복호화, 무결성 검증을 호스트 CPU 부담 없이 라인 레이트로 수행합니다. 보안과 성능을 동시에 잡는 부분입니다.
  3. 제어 평면 오케스트레이션 "어떤 KV 블록이 어느 인클로저에 있는가"를 관리하는 분산 메타데이터 처리. 컴퓨트 노드의 BlueField‑4가 클라이언트 역할을, 스토리지 트레이의 BlueField‑4가 타깃 역할을 맡습니다.
  4. DOCA Memos 프레임워크 실행 NVIDIA가 새로 만든 DOCA Memos는 KV 캐시를 "1급 자원(first‑class resource)"으로 다루는 통신·스토리지 레이어로, BlueField‑4 위에서 마이크로서비스 형태로 동작합니다.
  5. Spectrum‑X Ethernet RDMA 패브릭 연결 CMX 인클로저와 GPU 노드 사이는 Spectrum‑X 이더넷으로 묶이며, 이 RDMA 패브릭의 종단점이 바로 BlueField‑4와 ConnectX‑9 SuperNIC입니다. 학습·추론 패브릭과 같은 망을 공유합니다.
성능 — 왜 이게 게임체인저인가
초당 토큰 처리량
전력 효율
600TB
인클로저당 용량
18PB
슈퍼팟당 컨텍스트 풀

NVIDIA가 공개한 수치에 따르면, CMX 기반 BlueField‑4 STX 아키텍처는 기존 일반 스토리지 대비 초당 토큰 처리량이 최대 5배, 전력 효율은 약 4배 향상됩니다. 핵심 지표인 "Time to First Token(첫 토큰까지 걸리는 시간)"이 줄어들고, GPU가 데이터를 기다리며 노는 시간이 사라진다는 뜻입니다. 수십억 달러짜리 GPU 클러스터의 가동률이 1~2%만 올라가도 ROI는 어마어마하게 달라지죠.

기술적 트릭

일반 스토리지 시스템은 RAID, 이레이저 코딩 같은 데이터 보호 알고리즘을 돌리느라 오버헤드가 큽니다. 하지만 CMX는 "KV 캐시는 다시 만들어낼 수 있는 데이터다"라는 전제로, 이런 보호 알고리즘을 과감히 생략합니다. 비즈니스 데이터 같은 영속성이 필요 없기 때문에 가능한 설계 결정입니다.

파트너 생태계 — 누가 CMX에 올라타고 있나

NVIDIA는 CMX를 폐쇄형 솔루션이 아니라 STX(Storage Transformation eXtension)라는 모듈식 참조 아키텍처로 풀어놓았습니다. 그래서 스토리지 기업들이 자사 제품을 CMX에 맞게 통합하고 있습니다. 현재 발표된 주요 파트너만 봐도 진영이 한눈에 보입니다.

  • VAST Data — 가장 적극적. CNode 소프트웨어를 BlueField‑4 안에서 직접 실행하는 zero‑copy 통합을 제시.
  • HPE — Alletra Storage MP X10000으로 CMX 지원.
  • Hitachi Vantara — Vera Rubin·BF‑4·Spectrum‑X 기반 AI 네이티브 스토리지 개발.
  • IBM — Storage Scale에 BlueField‑4 통합 (구체적 방식은 미공개).
  • Cloudian, MinIO — 오브젝트 스토리지 측면에서 CMX 지원.
  • WEKA, Nutanix, Lightbits, ScaleFlux, AIC — 각자 다른 각도에서 통합 진행 중.
  • Oracle, Mistral AI, CoreWeave — 초기 도입 고객으로 발표.

흥미롭게도 NVIDIA의 자체 명세에 따르면, CMX 인클로저는 AIC F2032‑G6 JBOF라는 2U 폼팩터(BlueField‑4 4개 + E3.S/L NVMe SSD 32개)와 사양이 정확히 일치합니다. 즉 NVIDIA는 하드웨어 표준은 열어두되, 그 위에서 돌아가는 KV 캐시 소프트웨어와 DOCA 프레임워크는 자사가 강하게 잡고 가는 모델을 택한 셈입니다.

한국 반도체 산업 관점에서 보면

CMX 이야기는 단순히 NVIDIA의 신제품 발표가 아니라, 메모리·스토리지 업계 전체의 게임 룰이 바뀌는 신호로 봐야 합니다. 특히 한국 메모리 산업과 직결되는 포인트가 세 가지 있습니다.

① HBM은 여전히 정점, 하지만 "그 아래"가 새로 생긴다

G1 계층의 GPU HBM은 SK하이닉스와 삼성전자가 사실상 양분하고 있는 시장입니다. CMX가 등장한다고 해서 HBM 수요가 줄어들지는 않습니다 — 오히려 컨텍스트가 길어지고 추론 워크로드가 폭증하면서 HBM 자체의 수요는 더 늘어납니다. 다만 "HBM이 모든 걸 떠받칠 필요는 없다"는 새로운 분업 구조가 생깁니다.

② 데이터센터용 NVMe SSD 수요 폭증

슈퍼팟 한 대당 18PB의 NVMe 플래시가 들어갑니다. 그것도 일반적인 SSD가 아니라 122TB·256TB급 초고용량 E3.S/L 수준의 엔터프라이즈 SSD가 핵심입니다. 삼성전자·SK하이닉스 입장에서는 HBM 다음의 새로운 데이터센터 SSD 시장이 본격적으로 열리는 셈입니다. 특히 KV 캐시 워크로드는 IOPS와 지연 시간 특성이 일반 스토리지와 달라, 전용 펌웨어와 컨트롤러 최적화가 경쟁력 포인트가 됩니다.

③ DPU는 한국이 약한 영역 — 그러나 협업 기회

DPU 자체는 ARM 기반 SoC라서 칩 설계 역량이 핵심입니다. 현재 시장은 NVIDIA(BlueField), AMD(Pensando), Intel(IPU), Marvell(Octeon)이 주도하고 있고, 한국 기업의 존재감은 약합니다. 다만 BlueField‑4가 NVMe SSD와 짝을 이루어야 동작한다는 점에서, SSD 컨트롤러·펌웨어 최적화·CMX 친화 SSD 라인업은 충분히 한국이 가져갈 수 있는 영역입니다.

정리 — DPU는 더 이상 "옵션"이 아니다

2020년 처음 BlueField가 등장했을 때만 해도, DPU는 "있으면 좋은 가속기" 정도로 여겨졌습니다. 그러나 2026년 CMX 발표를 기점으로 분위기가 완전히 바뀌었습니다. 에이전틱 AI, 수백만 토큰 컨텍스트, 멀티턴 추론이라는 워크로드가 현실이 되면서, GPU만으로는 절대 풀 수 없는 메모리·I/O 문제가 정면에 떠올랐습니다. 그리고 그 해법의 중심에 DPU가 있습니다.

한 마디로 정리하면 이렇습니다 — "GPU가 더 똑똑해지려면, DPU가 더 빨라져야 한다." 앞으로 데이터센터 아키텍처를 이야기할 때 CPU·GPU·DPU·메모리·NVMe·이더넷 패브릭을 따로 떼어놓고 보는 건 거의 불가능해질 겁니다. CMX는 그 통합의 첫 번째 본격 사례이고, 두 번째·세 번째 사례는 멀지 않아 등장할 겁니다.

한 줄 요약

DPU는 CPU·GPU 다음 세 번째 컴퓨팅 축입니다.

NVIDIA BlueField‑4는 그 정점에 있는 칩이고, CMX(ICMS)는 BlueField‑4를 KV 캐시 전용 메모리 계층의 중심에 앉힌 첫 번째 본격 아키텍처입니다.

HBM 다음의 메모리 전쟁은 G3.5 계층, 즉 "DPU + NVMe 플래시"에서 벌어집니다.

📌 관련 태그
#DPU #BlueField #NVIDIA #CMX #ICMS #KV캐시 #AI반도체 #데이터센터 #Rubin #HBM
반응형
LIST