AI

세레브라스(Cerebras) 심층분석

marvin-jung 2026. 5. 11. 21:22
반응형
SMALL
세레브라스(Cerebras) 심층분석: 엔비디아의 가장 강력한 도전자, 웨이퍼 한 장으로 AI 추론 시장을 재편하다
$230억 가치 IPO, OpenAI $200억 계약, AWS 파트너십까지 — 2026년 AI 칩 시장의 판도를 흔드는 세레브라스의 모든 것
주제 · AI 반도체 / 인프라 분석 대상 · Cerebras Systems 업데이트 · 2026년 4월

엔비디아(NVIDIA)의 GPU가 AI 시대의 표준 인프라로 자리 잡은 지난 수년간, 그 아성에 정면으로 도전해온 거의 유일한 회사가 세레브라스 시스템즈(Cerebras Systems)입니다. 일반적인 칩 한 개가 손톱만 한 크기인 데 반해, 세레브라스는 직경 30cm짜리 실리콘 웨이퍼 한 장을 통째로 한 개의 칩으로 사용한다는 발상으로 업계의 상식을 뒤집었습니다. 그리고 2026년, 이 회사는 OpenAI와 200억 달러 규모 계약을 맺고, AWS와 손을 잡았으며, 230억 달러 가치의 나스닥 IPO를 추진하며 본격적으로 무대 중앙으로 올라서고 있습니다.

세레브라스란 어떤 회사인가

세레브라스 시스템즈는 미국 캘리포니아 서니베일에 본사를 둔 AI 반도체 회사입니다. 2015년 앤드류 펠드만(Andrew Feldman), 게리 라우터바흐(Gary Lauterbach), 마이클 제임스(Michael James), 션 리(Sean Lie), 장-필립 프리커(Jean-Philippe Fricker)에 의해 설립되었으며, 이 다섯 명의 창업자는 모두 저전력 서버 회사 시마이크로(SeaMicro) 출신입니다. 시마이크로는 2007년에 설립되어 2012년 AMD에 3억 3,400만 달러에 매각된 이력이 있습니다.

창업의 출발점은 단순하지만 도발적인 질문이었습니다. "전통적인 GPU는 반도체 리소그래피의 레티클(reticle) 한계 때문에 칩 크기가 약 800㎟ 수준으로 제한된다. 그렇다면 실리콘 웨이퍼 전체, 약 46,225㎟를 한 개의 칩으로 쓰면 어떻게 될까?"라는 질문이었습니다. 이 질문에 대한 답이 바로 세레브라스의 핵심 기술인 웨이퍼 스케일 엔진(Wafer-Scale Engine, WSE)입니다.

2015 창립 연도
$40억+ 누적 사모 펀딩
$230억 IPO 추정 가치
$5.1억 2025년 매출
핵심 기술: 웨이퍼 스케일 엔진(WSE-3)의 충격

세레브라스의 정체성을 한 단어로 표현하면 "웨이퍼 스케일(wafer-scale)"입니다. 일반적인 반도체 제조에서는 한 장의 웨이퍼에 수백 개의 칩을 새긴 뒤 잘라서 개별 패키지로 만듭니다. 세레브라스는 이 과정을 생략하고 웨이퍼 자체를 단일 프로세서로 사용합니다.

2024년 3월 공개된 최신 칩 WSE-3는 이 접근법의 결정체입니다. 5나노미터 공정 기반에 4조 개의 트랜지스터와 90만 개의 AI 최적화 코어를 탑재하고 있으며, 크기는 46,225㎟로 엔비디아 H100 GPU의 57배에 달합니다.

메모리 월(Memory Wall)을 무너뜨리는 아키텍처

WSE-3가 단순히 "큰 칩"이기만 했다면 흥미로운 공학 사례에 그쳤을 것입니다. 하지만 진짜 혁신은 메모리 구조에 있습니다. 엔비디아나 AMD의 전통적인 칩이 프로세서와 외부 메모리 사이에서 데이터를 주고받아야 하는 반면, WSE-3는 모델 전체 또는 상당 부분을 44GB의 온칩 SRAM 안에 그대로 보관합니다.

이 구조가 만들어내는 차이는 충격적입니다. WSE-3의 메모리 대역폭은 21페타바이트/초로, 엔비디아의 플래그십 블랙웰 B200보다 약 2,600배 빠릅니다. 이 거대한 대역폭은 곧바로 LLM 추론 속도로 직결되어, Llama 3.1 70B 모델을 사용자당 초당 2,100 토큰의 속도로 구동합니다. 이는 엔비디아 H200 대비 약 8배, 블랙웰 대비 약 2배 빠른 단일 사용자 지연시간 성능입니다.

📌 알아두면 좋은 개념: 메모리 월(Memory Wall)이란

CPU·GPU의 연산 속도는 매년 빠르게 향상되어 왔지만, 외부 메모리에서 데이터를 가져오는 속도는 그만큼 따라오지 못했습니다. 이 격차로 인해 프로세서가 데이터를 기다리느라 놀게 되는 현상을 "메모리 월"이라고 부릅니다. AI 모델이 거대해질수록 이 병목이 심해지며, GPU 성능을 제대로 활용하지 못하게 됩니다. 세레브라스는 이 벽을 우회하기 위해 메모리를 칩 안에 직접 박아 넣는 길을 택했습니다.

CS-3 시스템 vs 엔비디아 GPU: 정면 비교

WSE-3 칩은 단독으로 판매되지 않습니다. 미니 냉장고 크기의 수냉식 어플라이언스인 CS-3 시스템에 외부 메모리, 네트워크 장비 등과 함께 패키징되어 공급됩니다. 다음은 주요 사양을 동급 GPU 솔루션과 비교한 표입니다.

구분 Cerebras WSE-3 NVIDIA H100 NVIDIA Blackwell B200
칩 면적 46,225㎟ 약 814㎟ 약 1,600㎟ (듀얼 다이)
코어 수 900,000개 약 18,000 CUDA 약 33,000 CUDA
온칩 SRAM 44 GB 50 MB 수준 약 100 MB 수준
메모리 대역폭 21 PB/s 3.35 TB/s 8 TB/s
Llama 70B 추론 ~2,100 tok/s 약 250 tok/s 약 1,000 tok/s
제조 공정 TSMC 5nm TSMC 4N TSMC 4NP

여기서 주목할 점은 단순한 처리량(throughput) 경쟁이 아니라 "단일 사용자 지연시간(per-user latency)"입니다. GPU 클러스터는 수백~수천 명의 동시 요청을 처리하는 데에는 강하지만, 한 명의 사용자에게 빠른 응답을 주는 데에는 메모리 대역폭이 결정적이며, 바로 이 영역에서 세레브라스가 압도적입니다.

Agentic AI 시대와 세레브라스의 적합성

2026년 AI 산업의 화두는 "에이전트 AI(Agentic AI)"입니다. 단순히 텍스트를 생성하는 모델이 아니라, 스스로 추론하고 도구를 호출하며 다단계 작업을 수행하는 시스템입니다. 이런 모델은 대화형 챗봇과 다른 부하 패턴을 가집니다.

AWS와 세레브라스가 함께 발표한 자료에 따르면 AI는 소프트웨어 개발 방식을 재편하고 있으며, 코드는 점점 더 인간 개발자가 아닌 AI 에이전트가 작성하고 있습니다. 대화형 채팅과 달리 에이전트형 코딩은 쿼리당 약 15배 더 많은 토큰을 생성하며, 개발자의 생산성을 유지하기 위해서는 고속 토큰 출력이 필수입니다.

또한 추론 모델(reasoning model)의 부상도 핵심입니다. DeepSeek-R1처럼 정교한 모델은 내부적으로 고속의 "사고 연쇄(Chain of Thought)" 처리를 지원할 하드웨어를 요구하며, WSE-3 아키텍처는 추론 에이전트가 요구하는 순차적 처리에 탁월합니다. 즉 모델이 "생각하는" 시간이 곧 응답 속도가 되는 시대에, 세레브라스의 구조적 장점이 본격적으로 드러나고 있습니다.

OpenAI와의 200억 달러 계약: AI 인프라 패권 전쟁의 신호탄

2026년 4월 17일, 세레브라스는 IPO를 위한 S-1 등록서를 제출하며 OpenAI와의 거대한 계약을 공개했습니다.

$20B+
OpenAI Master Relationship Agreement (3년)
2026~2028년 매년 250MW씩, 총 750MW 컴퓨팅 파워 공급
2029~2030년 추가 옵션으로 최대 2GW까지 확장 가능
$10억 운영자본 대출(working capital loan) 제공
조달 규모에 따라 OpenAI에 최대 10% 지분 워런트 부여

이 거래의 함의는 단순한 칩 구매를 넘어섭니다. 한편으로 OpenAI는 200억 달러 투자와 세레브라스 지분 확보를 통해 비(非)엔비디아 추론 컴퓨팅 파워의 지속적 공급을 확보하고, 다른 한편으로는 브로드컴(Broadcom)과 협력해 자체 ASIC 칩을 개발하고 있습니다. OpenAI는 엔비디아 의존도를 낮추기 위해 단순히 부품을 사는 것이 아니라, 공급사를 인큐베이팅하는 단계로 진입한 것입니다.

OpenAI는 공식 발표에서 "AI가 실시간으로 응답할 때 사용자는 더 많은 일을 하고, 더 오래 머물고, 더 가치 있는 워크로드를 실행한다"고 밝혔습니다. 즉 응답 지연시간이 곧 비즈니스 가치라는 인식이 거대 AI 기업 차원에서 자리 잡았다는 뜻입니다.

AWS 파트너십: 분리형(Disaggregated) 추론 아키텍처

2026년 3월 13일에는 또 하나의 중요한 발표가 있었습니다. AWS가 자사 데이터센터에 CS-3 어플라이언스를 배치하고, AWS Bedrock 서비스를 통해 고객에게 제공하기로 한 것입니다.

이 협력의 진짜 핵심은 분리형 추론 아키텍처(disaggregated inference architecture)입니다. 추론 작업은 크게 두 단계로 나뉩니다. 입력 프롬프트를 처리하는 "프리필(prefill)" 단계와 출력 토큰을 한 개씩 생성하는 "디코드(decode)" 단계입니다. 두 단계의 컴퓨팅 특성은 매우 다릅니다.

사용자 프롬프트 입력
AWS Trainium
프리필 (KV 캐시 계산)
AWS Trainium
KV 캐시 전송
Cerebras WSE-3
디코드 (토큰 생성)
Cerebras WSE-3
초당 수천 토큰 출력
최종 응답
AWS Trainium은 프리필을, Cerebras WSE-3는 디코드를 전담하는 분리형 구조

세레브라스 측 설명에 따르면 Trainium은 아마존이 자체 설계한 AI 칩으로 다양한 생성형 AI 워크로드에서 확장 가능한 성능과 비용 효율을 제공하며, 밀집된 연산 코어가 프리필 단계에 특히 적합합니다. CS-3는 모든 모델 가중치를 SRAM에 저장해 가장 빠른 GPU보다 수천 배 큰 메모리 대역폭을 제공하므로 디코드에 가장 빠른 프로세서입니다. 양쪽의 강점을 분리해서 결합하면 같은 하드웨어 풋프린트에서 5배의 고속 토큰 처리량을 얻을 수 있다는 계산입니다.

재무 지표와 IPO 구조

2026년 4월 17일 제출된 S-1을 통해 세레브라스의 재무 상태가 처음으로 공개되었습니다. 2025년 총 매출은 5억 1,000만 달러로 전년 대비 76% 성장했으며, OpenAI와의 200억 달러+ 마스터 계약, AWS와의 CS-3 통합 구속력 있는 텀시트가 동시에 공개되었습니다.

$510M 2025 매출
+76% YoY 성장률
CBRS 나스닥 티커
$23B 목표 시가총액

상장 주관사는 모건스탠리, 시티그룹, 바클레이즈, UBS Investment Bank가 공동 북러닝 매니저로 참여합니다. 다만 이 IPO에는 우여곡절이 있었습니다. 세레브라스는 원래 2024년 9월에 S-1을 제출했지만 미국 외국인투자위원회(CFIUS)가 G42(UAE 기반 투자자)의 소수 지분에 대해 검토를 시작하면서 철회를 강요받았습니다. 검토는 G42의 지분이 의결권 없는 주식으로 재구성된 2025년 10월에 종결되어 2026년 4월 재상장의 길이 열렸습니다.

세레브라스의 발자취: 주요 마일스톤
2015 앤드류 펠드만 등 시마이크로 출신 5인이 세레브라스 시스템즈 설립
2019 1세대 웨이퍼 스케일 엔진 WSE-1 공개 — 업계의 상식을 깬 단일 웨이퍼 칩 등장
2021 WSE-2 출시 — 온칩 SRAM 40GB, 메모리 대역폭 20PB/s로 확장
2022. 11 WSE-2 16개를 묶은 슈퍼컴퓨터 "안드로메다(Andromeda)" 공개, 1 엑사플롭 AI 연산 달성
2023. 7 UAE의 G42와 함께 9대 슈퍼컴 네트워크 "콘도르 갤럭시(Condor Galaxy)" 공개
2024. 3 5nm 기반 WSE-3와 CS-3 시스템 발표, 4조 트랜지스터·90만 코어 시대 개막
2024. 8 자체 AI 추론 서비스 출시, 엔비디아 H100 대비 10~20배 빠른 속도 주장
2024 TIME 매거진 "2024년 최고의 발명품(Best Inventions)" 선정
2025. 1 DeepSeek-R1 70B 추론 모델 지원 발표 (미국 데이터센터 기반)
2026. 1 OpenAI와 100억 달러 규모 컴퓨팅 파워 공급 계약 체결 (이후 200억 달러로 확대)
2026. 2 Tiger Global 주도 시리즈 H 10억 달러 조달, 230억 달러 가치 평가
2026. 3 AWS와 분리형 추론 아키텍처 파트너십 발표, AWS Bedrock 통합
2026. 4. 17 SEC에 S-1 등록서 제출, 나스닥 상장 추진 (티커 CBRS)
강점과 위험 요소
✓ 구조적 강점
  • 웨이퍼 스케일 아키텍처의 압도적 메모리 대역폭
  • 단일 사용자 지연시간에서 GPU 대비 명확한 우위
  • OpenAI·AWS 등 빅테크 앵커 고객 확보
  • 에이전트 AI·추론 모델 트렌드와의 높은 적합성
  • "가중치 스트리밍" 구조로 다중 GPU 클러스터 대비 단순한 소프트웨어 스택
  • 전력 효율: 안드로메다 슈퍼컴이 GPU 대비 훨씬 낮은 전력 소비
✕ 잠재적 리스크
  • 2025년 매출의 86%가 UAE 기반 두 개 법인에 집중
  • 비(非)GAAP 순손실 7,570만 달러로 적자 폭 확대
  • 엔비디아의 연간 칩 출시 사이클(블랙웰→베라루빈)로 성능 격차 점진적 축소 가능성
  • 웨이퍼 스케일 제조의 수율(yield) 리스크와 OpenAI 계약 물량 대응 부담
  • 미국 수출통제 강화 시 G42 등 중동·중국 관련 매출 영향
  • 그록(Groq), 삼바노바(SambaNova) 등 저지연 추론 경쟁사 등장
⚠️ 핵심 리스크 한눈에

매출 집중도와 수익성, 수출통제 등의 이슈는 IPO 이후 주가에 직접적인 변동성을 만들 수 있는 요인입니다. 특히 OpenAI 계약이 향후 수년간 매출의 큰 비중을 차지하게 될 전망이라 단일 고객 의존도가 오히려 더 높아질 가능성도 있습니다. "OpenAI 동맹은 향후 수년간 우리의 추정 매출의 상당 부분을 차지한다"고 세레브라스가 직접 명시한 만큼, 향후 주가는 OpenAI의 인프라 전략 변화에 민감하게 반응할 가능성이 큽니다.

엔비디아의 대응과 추론 전쟁(Inference Wars)

세레브라스의 부상은 엔비디아에게도 무시할 수 없는 신호입니다. 업계 일각에서는 엔비디아가 방어적 차원에서 200억 달러 규모로 그록(Groq) 인수를 추진하고 있으며, 이종(heterogeneous) 랙 구조를 채택한 베라 루빈(Vera Rubin) 아키텍처를 준비 중인 것으로 분석되고 있습니다.

2026년의 "추론 전쟁(inference wars)"은 에너지 효율과 소프트웨어 사용성을 전장으로 펼쳐질 전망이며, 세레브라스가 IPO를 성공적으로 마치고 그 자본을 제조와 소프트웨어 지원 확장에 투입할 수 있다면 향후 10년간 엔비디아의 주요 대안으로 자리 잡을 수 있습니다.

중요한 것은 시장이 더 이상 "엔비디아냐 아니냐"의 이분법으로 굴러가지 않는다는 점입니다. 학습(training)에는 엔비디아 GPU를, 프리필에는 AWS Trainium을, 디코드에는 세레브라스 WSE-3를, 그리고 자체 ASIC을 별도로 두는 식의 이종 인프라 조합이 표준이 되어가고 있습니다.

결론: 단순한 칩 회사가 아닌 아키텍처의 도전

세레브라스는 단순히 "더 빠른 칩"을 만드는 회사가 아닙니다. "메모리 월"이 물리 법칙이 아니라 전통적 설계의 한계라는 점을 증명한 회사이며, 컴퓨터를 어떻게 만들어야 하는지에 대한 근본적 재고(rethink)를 시도하는 회사입니다.

2026년 IPO는 이 회사의 다음 단계를 좌우할 분수령입니다. 주권국가 단위 하드웨어 공급자에서 하이퍼스케일 클라우드 운영자로 전환할 수 있느냐, OpenAI와 AWS라는 두 거대 앵커 고객에 안주하지 않고 매출을 다변화할 수 있느냐, 엔비디아의 베라 루빈 세대와의 성능 격차를 어떻게 유지할 것이냐 — 이 세 가지 질문에 세레브라스가 어떻게 답하는지가 향후 AI 인프라 시장의 지형을 바꿀 것입니다.

📊 투자자/관찰자 관점에서 주목할 포인트
① 추론(inference) 워크로드의 비중이 학습(training)을 빠르게 추월하고 있다는 매크로 트렌드
② 빅테크 기업들의 멀티 벤더(multi-vendor) 인프라 전략이 가속되는 흐름
③ 단일 사용자 지연시간이 비즈니스 가치로 직결되는 에이전트 AI 시대의 본격화
④ 웨이퍼 스케일 제조의 양산성과 수율을 검증할 OpenAI 750MW 배포 일정(~2028년)
#세레브라스 #Cerebras #WSE3 #AI반도체 #엔비디아대안 #AI추론 #OpenAI계약 #웨이퍼스케일 #AI인프라 #CBRS상장
반응형
LIST