기존 생성형 AI 워크로드는 단순했다. 사용자가 프롬프트를 던지면 모델이 한 번에 답을 내놓는 구조였고, 이 과정의 핵심은 거대한 행렬 연산이었다. GPU의 압도적 병렬 처리 능력이 곧 성능이었기에 데이터센터의 자본 지출은 자연스럽게 GPU에 집중됐다. CPU는 데이터를 GPU에 밀어넣는 보조 역할에 머물렀고, CPU 대 GPU 비율은 통상 1:4에서 1:8 수준이었다.
에이전틱 AI는 이 구조를 근본부터 바꾼다. 하나의 사용자 의도가 들어오면 메인 에이전트가 이를 여러 단계로 분해하고, 도구를 호출하고, 외부 데이터베이스를 검색하고, 중간 결과를 평가하고, 다음 행동을 결정한다. 한 번의 응답 뒤에 수십 번의 의사결정과 시스템 호출이 숨어 있는 셈이다. 이 모든 오케스트레이션 작업은 GPU가 아니라 CPU의 영역이고, 멀티턴 대화의 컨텍스트와 KV 캐시는 스토리지의 영역이다.
이 점을 놓치면 6:3:1을 단순한 수요 비중 변화로만 읽게 된다. 하지만 전력 관점에서 보면 의미가 완전히 달라진다. 고정된 전력 예산 안에서 한 와트를 어디에 쓸 것인가의 문제이고, 이 결정이 곧 데이터센터의 처리 능력을 좌우하기 때문이다.
(H100 700W, B200 1,000W)
(전통 서버 랙의 약 10배)
(Epoch AI, GB200 NVL72 기준)
전력 부족으로 지연·취소된 비율
미국 데이터센터의 전력 소비 비중은 2023년 4.4%에서 2028년 6.7~12%까지 치솟을 전망이다. 100GW가 넘는 신규 데이터센터 용량이 계획돼 있지만 전력 인프라가 따라가지 못하고 있다. 칩보다 전력 확보가 더 어려운 시대로 진입한 셈이다. 이 맥락에서 6:3:1은 "GPU에 70%, 80%까지 더 줄 수 있었지만 이제 60%만 주는 게 합리적"이라는 능동적인 재배분 결정으로 읽어야 한다.
가장 극적인 변화는 CPU에서 일어나고 있다. TrendForce는 에이전틱 AI 환경에서 CPU 대 GPU 비율이 기존 1:4~1:8에서 1:1~1:2로 옮겨갈 것으로 본다. Arm의 분석은 더 공격적이다. 전통 AI 데이터센터가 GW(기가와트)당 약 3,000만 개 CPU 코어를 필요로 했다면, AI 에이전트 시대에는 이 수치가 1억 2,000만 개로 약 4배 증가할 것으로 예측된다.
왜 이런 일이 벌어지는가. 2025년 11월에 발표된 'A CPU-Centric Perspective on Agentic AI' 논문은 도구 처리 작업이 전체 지연시간의 최대 90.6%를 차지할 수 있다고 보고했다. 파이썬 코드 실행, 웹 크롤링, 데이터베이스 검색, 텍스트 요약 같은 작업들 — 에이전트가 매 단계 호출하는 이 모든 도구는 GPU가 아니라 CPU 위에서 돌아간다.
Morgan Stanley는 에이전틱 시스템에서 CPU 측 오케스트레이션이 전체 워크로드 지연시간의 50~90%를 차지할 수 있으며, 이로 인해 2030년까지 325억~600억 달러 규모의 추가 CPU TAM이 발생할 것으로 추산했다. 시장은 이미 반응 중이다. Intel은 2026년 1분기 실적 콘퍼런스에서 데이터센터 CPU 대 GPU 비율이 1:8에서 1:4로 이미 좁혀졌고, 추론과 에이전틱 워크로드가 확산되면서 1:1까지 수렴할 수 있다고 밝혔다. 같은 시기 서버 CPU 가격은 3월 이후 최대 20% 상승했다.
스토리지는 CPU만큼 극적이진 않지만 더 구조적인 변화가 일어나고 있다. 핵심은 KV 캐시(Key-Value Cache)다. 멀티턴 에이전트가 긴 대화 맥락을 유지하려면 매 단계의 키-밸류 표현을 어딘가에 저장해야 하는데, 이걸 모두 GPU 메모리에 담아두는 건 비현실적이다.
NVIDIA가 2026년 1월 발표한 BlueField-4 STX는 이 문제를 정면으로 겨냥한 제품이다. 기존 스토리지 대비 초당 토큰 처리량을 최대 5배 끌어올리고, 전력 효율도 5배 개선해 장문 컨텍스트 멀티턴 에이전틱 추론을 지원한다. Pure Storage가 사명을 Everpure로 바꿔가며 데이터 관리 기업으로 재포지셔닝한 것도 같은 맥락이다.
수치로 보면 더 분명하다. Morgan Stanley는 에이전틱 워크로드가 2030년까지 15~45 엑사바이트의 추가 DRAM 수요를 일으킬 것으로 봤는데, 이는 2027년 연간 DRAM 공급량의 26~77%에 해당하는 규모다. 델오로그룹은 HDD·SSD 스토리지 시장이 향후 5년간 연평균 20% 이상 성장할 것으로 전망했다. 이미 글로벌 메모리 가격이 흔들리는 이유가 여기 있다.
새로운 CPU:GPU 비율
(3,000만 → 1억 2,000만)
CPU TAM (Morgan Stanley)
추가 DRAM 수요(최대치)
| 구분 | 생성형 AI 시대 | 에이전틱 AI 시대 |
|---|---|---|
| 주요 워크로드 | 대규모 학습, 단발 추론 | 다단계 추론, 도구 호출, 멀티 에이전트 협업 |
| GPU 역할 | 거의 모든 연산 | 핵심 추론 엔진(여전히 중심) |
| CPU 역할 | 데이터 공급 보조 | 오케스트레이션 컨트롤 플레인 |
| 스토리지 역할 | 학습 데이터 저장 | KV 캐시·컨텍스트 메모리·RAG 지식 베이스 |
| 인프라 전력 비중(추정) | GPU 90%+ | GPU 60% : CPU 30% : 스토리지 10% |
이 변화의 가장 큰 의미는 AI 트레이드의 외연이 GPU 너머로 확장된다는 것이다. 그동안 NVIDIA 한 종목으로 압축됐던 AI 수혜주가, 이제 CPU(Intel·AMD), 메모리(삼성전자·SK하이닉스·마이크론), 스토리지(VAST Data·웨카·Everpure), 네트워킹(Arista·Marvell), 패키징·기판까지 풀스택으로 분산된다.
국내 관점에서 가장 직접적인 수혜는 메모리 반도체다. KV 캐시 확장과 컨텍스트 메모리 수요는 결국 HBM과 DRAM, 고용량 NAND로 흘러간다. 삼성SDS는 에이전틱 AI 구현을 위해 다수 에이전트가 각각 업무를 담당하는 구조로 시스템을 전환했고, 이 구조가 더 많은 연산량을 요구하기 때문에 선제적 인프라 증설이 필수라고 밝혔다. 국내 클라우드 사업자들 역시 이 흐름에 맞춘 인프라 재설계가 불가피하다.
- GPU 진영: 여전히 중심이지만 점유율은 완만하게 하락. NVIDIA의 BlueField·Dynamo 같은 풀스택 전략은 이 변화를 이미 반영한 것
- CPU 진영: Intel·AMD뿐 아니라 NVIDIA·Arm·AWS·구글까지 서버 CPU 시장에 진입. 경쟁 격화로 가격은 오르지만 점유율 재편 가능성 큼
- 메모리·스토리지: 가장 구조적 수혜. DRAM·HBM·고용량 SSD 모두 수요 곡선이 우상향
- 데이터센터 설계: 단순 GPU 집적도가 아니라 저지연 인터커넥트·고대역폭 메모리·전력 효율을 통합한 전 스택 최적화가 핵심 경쟁력으로 부상
2026년은 이 전환의 원년으로 기록될 가능성이 높다. Intel의 CPU 가격 인상, NVIDIA BlueField-4의 출시, Morgan Stanley의 리서치 발간이 모두 같은 분기에 몰려 있다는 점은 우연이 아니다. AI 인프라의 다음 5년은 GPU 단일 축이 아니라, GPU·CPU·스토리지가 함께 짜는 그물망의 시대가 될 것이다.
'AI' 카테고리의 다른 글
| AI 패권은 결국 전력 전쟁이다 — 미국·중국·한국, 누가 전기를 더 많이 만드나 (0) | 2026.05.10 |
|---|---|
| AI 시대, CPU의 부활인가 오프로딩의 시대인가 — 인텔·AMD·ARM의 새판짜기와 DPU의 역습 (0) | 2026.05.10 |
| CPU·GPU·GPGPU·TPU·NPU 한 방에 정리:AI 가속기 완전 가이드 (그리고 NVIDIA에서 벗어나려는 중국) (0) | 2026.05.10 |
| vLLM 완벽 해부 — LLM 추론 엔진의 표준이 된 진짜 이유 (0) | 2026.05.10 |
| 쿠버네티스(Kubernetes) 쉽게 이해하기 — SW 레이어 어디에서 어떻게 작동하나 (0) | 2026.05.10 |