에이전틱 AI 시대, GPU 독주는 끝났다 — 6:3:1로 재편되는 AI 인프라 패러다임

marvin-jung 2026. 5. 10. 16:45

SMALL

학습에서 추론·실행으로 무게 중심이 옮겨가면서 CPU와 스토리지가 다시 주인공으로 돌아왔다. 그런데 이 6:3:1이라는 숫자, 기준이 '전력(W)'이라는 점을 놓치면 안 된다. 데이터센터의 진짜 제약은 그리드이기 때문이다.

지난 2~3년간 AI 인프라 투자의 90% 이상은 사실상 GPU 한 곳으로 쏠렸다. 하지만 2026년 들어 이 공식이 빠르게 깨지고 있다. AI가 단발성 응답에서 스스로 계획하고 도구를 호출하며 여러 단계를 실행하는 에이전트로 진화하면서, 워크로드의 성격 자체가 변했기 때문이다. 결과적으로 데이터센터의 전력 예산(W)을 기준으로 GPU·CPU·스토리지의 무게중심이 대략 6:3:1 수준으로 재조정될 것이라는 전망이 업계 정설로 자리잡고 있다. 이 비율의 진짜 기준이 '전력'이라는 점이 모든 의미를 결정짓는다.

왜 지금 'GPU 90%' 공식이 깨지는가

기존 생성형 AI 워크로드는 단순했다. 사용자가 프롬프트를 던지면 모델이 한 번에 답을 내놓는 구조였고, 이 과정의 핵심은 거대한 행렬 연산이었다. GPU의 압도적 병렬 처리 능력이 곧 성능이었기에 데이터센터의 자본 지출은 자연스럽게 GPU에 집중됐다. CPU는 데이터를 GPU에 밀어넣는 보조 역할에 머물렀고, CPU 대 GPU 비율은 통상 1:4에서 1:8 수준이었다.

에이전틱 AI는 이 구조를 근본부터 바꾼다. 하나의 사용자 의도가 들어오면 메인 에이전트가 이를 여러 단계로 분해하고, 도구를 호출하고, 외부 데이터베이스를 검색하고, 중간 결과를 평가하고, 다음 행동을 결정한다. 한 번의 응답 뒤에 수십 번의 의사결정과 시스템 호출이 숨어 있는 셈이다. 이 모든 오케스트레이션 작업은 GPU가 아니라 CPU의 영역이고, 멀티턴 대화의 컨텍스트와 KV 캐시는 스토리지의 영역이다.

BEFORE · 생성형 AI 시대

GPU 독점 구조

GPU 90%+

CPU

학습·단발 추론 중심. CPU·스토리지는 보조 역할에 머물렀다.

AFTER · 에이전틱 AI 시대

6 : 3 : 1 균형 구조

GPU 60%

CPU 30%

ST 10%

오케스트레이션·컨텍스트 메모리·도구 호출이 인프라 가치를 재분배한다.

이 비율의 기준은 '전력(W)'이다 — 왜 와트로 따져야 하는가

⚡ 핵심 포인트

6:3:1은 칩 개수도, 투자 금액도 아닌 '전력 배분' 기준이다

데이터센터 한 곳이 가진 GW 단위 전력 예산을 GPU·CPU·스토리지에 어떻게 쪼갤 것이냐 — 이게 진짜 질문이다. AI 데이터센터의 실질적 제약은 부지도, 칩 공급도 아닌 그리드(전력망)이기 때문이다.

이 점을 놓치면 6:3:1을 단순한 수요 비중 변화로만 읽게 된다. 하지만 전력 관점에서 보면 의미가 완전히 달라진다. 고정된 전력 예산 안에서 한 와트를 어디에 쓸 것인가의 문제이고, 이 결정이 곧 데이터센터의 처리 능력을 좌우하기 때문이다.

전력이 진짜 제약이라는 증거들

700~1,200W

AI GPU 1개당 소비 전력
(H100 700W, B200 1,000W)

80~140kW

AI 풀 GPU 랙 전력 소비
(전통 서버 랙의 약 10배)

~40%

GPU가 차지하는 시설 전력 비중
(Epoch AI, GB200 NVL72 기준)

50%

미국 신규 데이터센터 건설 중
전력 부족으로 지연·취소된 비율

미국 데이터센터의 전력 소비 비중은 2023년 4.4%에서 2028년 6.7~12%까지 치솟을 전망이다. 100GW가 넘는 신규 데이터센터 용량이 계획돼 있지만 전력 인프라가 따라가지 못하고 있다. 칩보다 전력 확보가 더 어려운 시대로 진입한 셈이다. 이 맥락에서 6:3:1은 "GPU에 70%, 80%까지 더 줄 수 있었지만 이제 60%만 주는 게 합리적"이라는 능동적인 재배분 결정으로 읽어야 한다.

그래서 6:3:1은 무엇을 의미하는가

1매 와트의 트레이드오프가 명확해진다

CPU 한 와트를 늘리면 GPU에 줄 수 있는 와트가 그만큼 줄어든다. 에이전틱 워크로드가 CPU 비중을 30%까지 끌어올린다는 건, 같은 전력 예산 안에서 GPU 절대량은 오히려 줄어든다는 뜻이다. "GPU를 더 많이 사면 끝"이 아니라, "어떤 전력 배분이 가장 많은 에이전트 작업을 처리하느냐"의 게임으로 바뀐다.

2와트당 성능(Perf/W)이 새로운 KPI가 된다

NVIDIA가 BlueField-4 STX의 마케팅 포인트를 "5배 에너지 효율"로 잡은 이유, AMD와 Intel이 와트당 코어 수 경쟁에 사활을 거는 이유, NVIDIA B200이 H100 대비 1.4배 전력으로 2.5배 처리량을 강조하는 이유 — 모두 같은 맥락이다. 같은 전력으로 더 많은 토큰을 처리하는 쪽이 이긴다.

3전력 확보가 칩 확보보다 어려워진다

미국에서는 이미 "GPU를 사기 전에 전력부터 확보하라(Secure power first, buy GPUs second)"가 업계 격언이 됐다. 발전소 신설과 송전망 증설은 칩 생산보다 훨씬 느리다. 한국 역시 한전 송전 인프라 부담, 데이터센터 신증설 인허가 지연이 같은 문제의 한국식 표현이다. 전력 확보 능력이 곧 AI 인프라 경쟁력의 진입 장벽이 된다.

4냉각·랙 설계 토폴로지도 함께 바뀐다

GPU 100% 랙은 80~140kW 열밀도로 액체 냉각이 필수였지만, CPU·스토리지 비중이 늘어난 6:3:1 랙은 열밀도 분포 자체가 다르다. 냉각 방식, 전력 분배 토폴로지, 인터커넥트 배치까지 재설계가 불가피하다. 단순히 GPU 옆에 CPU를 더 끼워 넣는 수준의 변화가 아니다.

5'전력 효율 좋은 부품'이 곧 시장 점유율이다

와트가 곧 통화(currency)가 되는 시장에서, 전력 효율이 떨어지는 제품은 비용이 아무리 싸도 선택받지 못한다. 메모리 반도체에서 저전력 DRAM과 HBM의 가치가 폭등하는 이유, 스토리지에서 테이프가 다시 주목받는 이유, ARM 기반 서버 CPU가 부상하는 이유 — 모두 "같은 와트로 무엇을 더 할 수 있는가"라는 질문의 다른 답들이다.

CPU의 역습 — 오케스트레이션이 곧 성능이다

가장 극적인 변화는 CPU에서 일어나고 있다. TrendForce는 에이전틱 AI 환경에서 CPU 대 GPU 비율이 기존 1:4~1:8에서 1:1~1:2로 옮겨갈 것으로 본다. Arm의 분석은 더 공격적이다. 전통 AI 데이터센터가 GW(기가와트)당 약 3,000만 개 CPU 코어를 필요로 했다면, AI 에이전트 시대에는 이 수치가 1억 2,000만 개로 약 4배 증가할 것으로 예측된다.

왜 이런 일이 벌어지는가. 2025년 11월에 발표된 'A CPU-Centric Perspective on Agentic AI' 논문은 도구 처리 작업이 전체 지연시간의 최대 90.6%를 차지할 수 있다고 보고했다. 파이썬 코드 실행, 웹 크롤링, 데이터베이스 검색, 텍스트 요약 같은 작업들 — 에이전트가 매 단계 호출하는 이 모든 도구는 GPU가 아니라 CPU 위에서 돌아간다.

"에이전틱 AI는 GPU를 넘어 거래 영역을 넓힌다. CPU는 다단계 워크플로와 시스템 오케스트레이션의 컨트롤 플레인이 되고 있다." — Morgan Stanley 리서치 보고서 (2026.04)

Morgan Stanley는 에이전틱 시스템에서 CPU 측 오케스트레이션이 전체 워크로드 지연시간의 50~90%를 차지할 수 있으며, 이로 인해 2030년까지 325억~600억 달러 규모의 추가 CPU TAM이 발생할 것으로 추산했다. 시장은 이미 반응 중이다. Intel은 2026년 1분기 실적 콘퍼런스에서 데이터센터 CPU 대 GPU 비율이 1:8에서 1:4로 이미 좁혀졌고, 추론과 에이전틱 워크로드가 확산되면서 1:1까지 수렴할 수 있다고 밝혔다. 같은 시기 서버 CPU 가격은 3월 이후 최대 20% 상승했다.

스토리지의 부상 — KV 캐시가 만든 새 전쟁터

스토리지는 CPU만큼 극적이진 않지만 더 구조적인 변화가 일어나고 있다. 핵심은 KV 캐시(Key-Value Cache)다. 멀티턴 에이전트가 긴 대화 맥락을 유지하려면 매 단계의 키-밸류 표현을 어딘가에 저장해야 하는데, 이걸 모두 GPU 메모리에 담아두는 건 비현실적이다.

"AI 모델이 수조 개의 파라미터와 다단계 추론으로 확장되면서 방대한 컨텍스트 데이터가 생성된다. 이를 표현하는 KV 캐시는 실시간 추론의 병목이 되며, GPU에 장기간 저장될 수 없다." — 젠슨 황 NVIDIA CEO, CES 2026

NVIDIA가 2026년 1월 발표한 BlueField-4 STX는 이 문제를 정면으로 겨냥한 제품이다. 기존 스토리지 대비 초당 토큰 처리량을 최대 5배 끌어올리고, 전력 효율도 5배 개선해 장문 컨텍스트 멀티턴 에이전틱 추론을 지원한다. Pure Storage가 사명을 Everpure로 바꿔가며 데이터 관리 기업으로 재포지셔닝한 것도 같은 맥락이다.

수치로 보면 더 분명하다. Morgan Stanley는 에이전틱 워크로드가 2030년까지 15~45 엑사바이트의 추가 DRAM 수요를 일으킬 것으로 봤는데, 이는 2027년 연간 DRAM 공급량의 26~77%에 해당하는 규모다. 델오로그룹은 HDD·SSD 스토리지 시장이 향후 5년간 연평균 20% 이상 성장할 것으로 전망했다. 이미 글로벌 메모리 가격이 흔들리는 이유가 여기 있다.

숫자로 보는 6:3:1 시대

1:1~1:2

에이전틱 AI 환경의
새로운 CPU:GPU 비율

4배

GW당 필요 CPU 코어
(3,000만 → 1억 2,000만)

$60B

2030년까지 추가 발생할
CPU TAM (Morgan Stanley)

45EB

에이전틱이 만들어낼
추가 DRAM 수요(최대치)

구분	생성형 AI 시대	에이전틱 AI 시대
주요 워크로드	대규모 학습, 단발 추론	다단계 추론, 도구 호출, 멀티 에이전트 협업
GPU 역할	거의 모든 연산	핵심 추론 엔진(여전히 중심)
CPU 역할	데이터 공급 보조	오케스트레이션 컨트롤 플레인
스토리지 역할	학습 데이터 저장	KV 캐시·컨텍스트 메모리·RAG 지식 베이스
인프라 전력 비중(추정)	GPU 90%+	GPU 60% : CPU 30% : 스토리지 10%

투자·산업 관점에서의 의미

이 변화의 가장 큰 의미는 AI 트레이드의 외연이 GPU 너머로 확장된다는 것이다. 그동안 NVIDIA 한 종목으로 압축됐던 AI 수혜주가, 이제 CPU(Intel·AMD), 메모리(삼성전자·SK하이닉스·마이크론), 스토리지(VAST Data·웨카·Everpure), 네트워킹(Arista·Marvell), 패키징·기판까지 풀스택으로 분산된다.

국내 관점에서 가장 직접적인 수혜는 메모리 반도체다. KV 캐시 확장과 컨텍스트 메모리 수요는 결국 HBM과 DRAM, 고용량 NAND로 흘러간다. 삼성SDS는 에이전틱 AI 구현을 위해 다수 에이전트가 각각 업무를 담당하는 구조로 시스템을 전환했고, 이 구조가 더 많은 연산량을 요구하기 때문에 선제적 인프라 증설이 필수라고 밝혔다. 국내 클라우드 사업자들 역시 이 흐름에 맞춘 인프라 재설계가 불가피하다.

GPU 진영: 여전히 중심이지만 점유율은 완만하게 하락. NVIDIA의 BlueField·Dynamo 같은 풀스택 전략은 이 변화를 이미 반영한 것
CPU 진영: Intel·AMD뿐 아니라 NVIDIA·Arm·AWS·구글까지 서버 CPU 시장에 진입. 경쟁 격화로 가격은 오르지만 점유율 재편 가능성 큼
메모리·스토리지: 가장 구조적 수혜. DRAM·HBM·고용량 SSD 모두 수요 곡선이 우상향
데이터센터 설계: 단순 GPU 집적도가 아니라 저지연 인터커넥트·고대역폭 메모리·전력 효율을 통합한 전 스택 최적화가 핵심 경쟁력으로 부상

CORE TAKEAWAY

에이전틱 AI 시대의 인프라 경쟁력은 더 이상 "누가 GPU를 더 많이 쌓느냐"의 게임이 아니다. 고정된 전력 예산을 어떻게 쪼개느냐, 그 안에서 누가 와트당 더 많은 토큰을 처리하느냐가 새로운 KPI다. GPU 90% 시대에서 6:3:1로의 이동은 단순한 비중 조정이 아니라, 전력이 통화가 된 시대에 AI 산업 전체의 가치 분배 지도가 다시 그려진다는 신호다.

2026년은 이 전환의 원년으로 기록될 가능성이 높다. Intel의 CPU 가격 인상, NVIDIA BlueField-4의 출시, Morgan Stanley의 리서치 발간이 모두 같은 분기에 몰려 있다는 점은 우연이 아니다. AI 인프라의 다음 5년은 GPU 단일 축이 아니라, GPU·CPU·스토리지가 함께 짜는 그물망의 시대가 될 것이다.

'AI' 카테고리의 다른 글

AI 패권은 결국 전력 전쟁이다 — 미국·중국·한국, 누가 전기를 더 많이 만드나 (0)	2026.05.10
AI 시대, CPU의 부활인가 오프로딩의 시대인가 — 인텔·AMD·ARM의 새판짜기와 DPU의 역습 (0)	2026.05.10
CPU·GPU·GPGPU·TPU·NPU 한 방에 정리:AI 가속기 완전 가이드 (그리고 NVIDIA에서 벗어나려는 중국) (0)	2026.05.10
vLLM 완벽 해부 — LLM 추론 엔진의 표준이 된 진짜 이유 (0)	2026.05.10
쿠버네티스(Kubernetes) 쉽게 이해하기 — SW 레이어 어디에서 어떻게 작동하나 (0)	2026.05.10

현재글에이전틱 AI 시대, GPU 독주는 끝났다 — 6:3:1로 재편되는 AI 인프라 패러다임

S전자 반도체 중국 기술주재원 Marvin Jung

S전자 반도체 중국 기술주재원 Marvin Jung의 중국과 AI 기술이야기 블로그입니다.

hsk단어, 중국어어휘, 중국AI, 중국어회화, 중국어공부, 중국어문법, 중국생활, 중국어표현, LLM, 베이징주재원, AI반도체, ai인프라, 인공지능, 가능보어, 중국어독학, 메모리반도체, AI스토리지, 중국문화, 중국어단어, 중국어기초,

Today :
Yesterday :

S전자 반도체 중국 기술주재원 Marvin Jung