AI

CPU·GPU·GPGPU·TPU·NPU 한 방에 정리:AI 가속기 완전 가이드 (그리고 NVIDIA에서 벗어나려는 중국)

marvin-jung 2026. 5. 10. 16:44
반응형
SMALL
AI 인프라 · 반도체
CPU·GPU·GPGPU·TPU·NPU 한 방에 정리:
AI 가속기 완전 가이드 (그리고 NVIDIA에서 벗어나려는 중국)

"AI에 GPU 쓴다"는 말, 절반은 맞고 절반은 틀리다. 진짜는 GPGPU다. 그리고 구글의 TPU, 폰 속의 NPU, 화웨이 어센드까지 — AI 칩의 세계는 생각보다 훨씬 복잡하다.

"GPU 모르는 사람이 어디 있어?" 다들 이렇게 생각한다. 게임할 때 그래픽카드, ChatGPT 돌릴 때 NVIDIA 칩, 끝. 그런데 사실 우리가 AI에서 말하는 그 GPU는 정확히 말하면 GPGPU다. 그래픽 출력 단자조차 없는 모델도 많다.

거기다 구글은 TPU를 따로 만들었고, 폰과 노트북에는 NPU가 들어가 있다. 미국이 첨단 GPU 수출을 막자 중국은 어센드·캠브리콘·비렌 같은 자체 칩을 쏟아내며 NVIDIA 의존에서 벗어나려 한다. 이름은 다 다르고, 용도와 위치도 다르다. 한 번에 정리해보자.

1출발점: CPU만으로는 왜 안 되는가

모든 컴퓨터의 두뇌는 CPU(Central Processing Unit)다. 이론적으로 CPU는 어떤 연산이든 다 할 수 있다. AI 학습도, 추론도, 그래픽 렌더링도. 그런데 왜 굳이 GPU나 TPU 같은 별도 칩이 필요할까?

이유는 단 하나, 속도다.

CPU는 똑똑한 코어를 4~64개 정도 가진 구조다. 분기, 조건문, 운영체제 처리 같은 복잡한 일을 빠르게 처리하도록 설계됐다. 천재 한 명이 머리 굴리는 구조다. 반면 AI는 본질적으로 거대한 행렬 곱셈의 반복이다. 같은 연산을 수십억 번 동시에 돌려야 한다. 천재 한 명이 아무리 빨라도, 만 명이 단순 산수를 동시에 하는 걸 이길 수는 없다.

그래서 등장한 게 가속기(Accelerator)다. CPU로 다 할 수는 있지만 너무 느리니, 특정 워크로드만 미친 듯이 빨리 처리하는 별도의 칩을 쓰자는 것. AI 가속기는 그중 AI 워크로드 — 특히 행렬 곱셈과 텐서 연산 — 를 빨리 돌리는 모든 전용 하드웨어를 통칭하는 우산 같은 단어다.

2GPU와 GPGPU: 같은 칩, 다른 이름

GPU(Graphics Processing Unit)는 원래 이름 그대로 그래픽을 처리하는 장치로 태어났다. 1990년대 후반, 화면 위 수백만 픽셀의 색깔을 동시에 계산해야 하는 게임용으로 등장했다. 이때부터 GPU는 "단순한 연산을 수많은 코어가 동시에 처리하는" 병렬 구조를 가지게 됐다.

그런데 2000년대 중반, 누군가 이걸 발견했다. "행렬 곱셈도 본질은 픽셀 계산이랑 똑같잖아?"

2007년 NVIDIA가 CUDA를 발표하면서, 개발자들이 GPU를 그래픽 외 일반 연산에 쓸 수 있게 됐다. 이걸 GPGPU(General-Purpose computing on GPU)라고 부른다. 학계가 GPU로 신경망을 돌리기 시작했고, 2012년 AlexNet이 GPU로 이미지넷을 박살낸 뒤, 딥러닝 혁명이 본격적으로 시작됐다.

GPU vs GPGPU CORE CONCEPT

GPU: 그래픽 출력용 장치. 모니터 단자가 달려 있다. 게임용 RTX 4090, 5090 같은 것들.

GPGPU: GPU의 병렬 구조를 일반 연산에 활용. AI 학습용 NVIDIA H100/H200/B200/B300, AMD MI300X 같은 데이터센터 카드들. 그래픽 출력 단자가 아예 없는 모델도 많다. 이름은 GPU지만 실질은 GPGPU다.

즉 우리가 "AI에 GPU 쓴다"고 할 때, 99%는 GPGPU 가속기를 가리킨다. 다만 산업 관습상 그냥 GPU라고 부른다.

3TPU: 구글이 만든 "AI 전용" ASIC

구글은 2013년부터 자체 AI 칩 개발에 들어갔다. 이유는 단순했다. 구글 검색, 번역, 이미지 인식이 폭발적으로 성장하면서, NVIDIA GPU를 사다 쓰는 비용이 천문학적으로 늘어났기 때문이다. "신경망만 돌릴 거면, 그래픽 회로는 다 빼고 텐서 연산만 하는 칩을 만들자."

그렇게 나온 게 TPU(Tensor Processing Unit)다. TPU는 ASIC(Application-Specific Integrated Circuit)의 일종이다. 즉 "특정 용도로만 쓰도록 맞춤형으로 설계된 칩"이라는 뜻. 그래픽도, 게임도, 일반 연산도 못 한다. 오직 텐서 연산만 미친 듯이 빨리 한다.

그럼 이게 'AI 가속기'인가? 그렇다. AI 가속기 = AI를 빨리 처리하는 모든 전용 칩의 우산이고, TPU는 그 우산 아래 있다. GPGPU도 마찬가지로 우산 아래 있다. 다만 GPGPU는 범용성이 남아 있고, TPU는 더 특화되어 있다.

2026년 4월, 구글은 7세대 TPU "Ironwood"를 공식 출시했다. 이게 얼마나 무서운 칩인지 보자.

Google TPU v7 "Ironwood" (2026) 최신

칩당 4.6 PFLOPS의 FP8 연산 성능, 192GB HBM3e, 7.37TB/s 메모리 대역폭. 9,216개 칩을 묶은 슈퍼팟은 42.5 EFLOPS를 낸다 — 세계 최강 슈퍼컴퓨터 El Capitan의 24배가 넘는 규모다.

세대7세대 (TPU v7)
FP8 성능4.6 PFLOPS/칩
HBM192GB HBM3e
대역폭7.37 TB/s
슈퍼팟9,216 칩 / 42.5 EFLOPS
설계 파트너Broadcom

전 세대 Trillium(v6)이 H100과 비슷한 성능이었다면, Ironwood는 NVIDIA의 최신 Blackwell 플래그십과 FLOPs·메모리 용량·대역폭에서 거의 격차를 좁혔다. 다만 출시는 1년 정도 늦었다.

가장 큰 뉴스: Anthropic이 최대 100만 개의 Ironwood 칩에 접근하는 계약을 맺었다. 1차 40만 칩이 약 100억 달러 규모, 나머지 60만 칩은 GCP를 통해 임대된다. Claude를 학습하고 서빙하는 인프라가 NVIDIA에서 TPU로 대거 이동한다는 뜻이다.

TPU의 강점은 구글이 모델·하드웨어·소프트웨어를 한 회사 안에서 동시에 설계한다는 점이다. Gemini 모델 연구진과 TPU 엔지니어가 같은 건물에 있다. 모델 구조가 바뀌면 다음 세대 칩 설계에 즉시 반영된다. 이게 NVIDIA가 따라잡기 힘든 부분이다.

4NPU: 폰과 노트북 안의 작은 AI 두뇌

NPU(Neural Processing Unit)는 이름 그대로 신경망 처리 전용 유닛이다. 기술적으로는 사실 TPU와 큰 차이가 없다. 둘 다 행렬 곱셈을 빨리 처리하는 전용 회로다. 차이는 규모와 위치에 있다.

  • TPU: 데이터센터에 박혀 있는, 칩 한 개가 손바닥만 한 거대한 가속기. 학습과 대규모 추론용.
  • NPU: 폰·노트북·자동차에 들어가는 작고 저전력인 칩. 주로 온디바이스 추론용 — 즉 클라우드에 보내지 않고 기기 안에서 직접 AI를 돌리는 용도.

왜 이런 게 필요해졌을까? 클라우드로 보내면 1) 비용이 든다 2) 인터넷 끊기면 못 쓴다 3) 프라이버시가 샌다. 그래서 폰 안에서 직접 얼굴 인식, 음성 인식, 사진 보정, 실시간 번역을 돌리려는 흐름이 강해졌다.

NPU 성능은 TOPS(Tera Operations Per Second, 초당 1조 연산) 단위로 표시한다. 마이크로소프트는 Copilot+ PC 인증을 받으려면 최소 40 TOPS를 요구한다. 이게 사실상 업계 표준이 됐다.

2026년 주요 NPU 라인업 ON-DEVICE
  • Apple Neural Engine: 2017년 A11 Bionic부터 탑재 시작. A11이 0.6 TOPS였는데, 현재 A19 Pro는 35 TOPS 수준. M 시리즈 맥에도 모두 들어간다.
  • Qualcomm Hexagon: Snapdragon X Elite(노트북용)와 Snapdragon 8 Gen 시리즈(폰용)에 탑재. 최대 45 TOPS.
  • AMD XDNA (Ryzen AI): Ryzen AI 300 시리즈 50 TOPS로 현재 소비자 NPU 중 최고 수치.
  • Intel AI Boost: Core Ultra 200V 시리즈가 48 TOPS.
  • Google Tensor: 픽셀폰용. Gemini Nano 같은 온디바이스 모델 구동.
  • Samsung Exynos NPU: 갤럭시 시리즈에 탑재.

주의: TOPS는 카메라의 메가픽셀 같은 숫자다. 절대 비교 기준은 아니다. Apple은 TOPS는 낮아도 통합 메모리 구조와 Core ML 최적화로 실제 성능에서 종종 앞선다.

재미있는 건 NVIDIA에는 NPU가 없다는 점이다. 그들은 GPU에서 모든 걸 처리하면 된다는 입장이다. 반면 인텔·AMD·퀄컴·애플은 모두 NPU를 별도로 박았다. 이 노선 차이가 앞으로 어떻게 결판날지가 또 하나의 관전 포인트다.

5빅테크의 자체 ASIC: NVIDIA에서 벗어나기 전쟁

NVIDIA의 데이터센터 GPU는 미친 듯이 비싸고, 미친 듯이 마진이 높다. 빅테크들은 이걸 더 이상 두고 볼 수 없었다. 구글이 TPU로 길을 열자, 모두가 자체 칩으로 따라 뛰기 시작했다.

하이퍼스케일러 자체 AI 칩 CUSTOM ASIC
  • AWS Trainium / Inferentia: 아마존이 학습용(Trainium)과 추론용(Inferentia)으로 나눠 만든 칩. AWS 내부 워크로드 비중을 빠르게 늘리고 있다.
  • Microsoft Maia 100: Azure 내부용. OpenAI 워크로드 일부도 돌릴 계획.
  • Meta MTIA: Meta Training and Inference Accelerator. 추천 시스템부터 LLaMA 추론까지.
  • Tesla Dojo: 자율주행 모델 학습 전용 슈퍼컴퓨터.
  • 스타트업: Cerebras(웨이퍼 한 장 통째로 칩 하나로 쓰는 미친 설계), Groq(LPU, 추론 속도 최강), Graphcore(IPU), SambaNova 등.

이 흐름의 핵심은 명확하다. "학습은 NVIDIA가 압도적이지만, 추론은 누구든 자기 집에 맞는 칩으로 갈아탈 수 있다." 추론 시장이 학습 시장보다 결국 5~10배 커질 거라는 게 업계 전망이고, 그래서 다들 추론용 ASIC에 미친 듯이 투자하고 있다.

6중국의 반도체 굴기: 제재가 만든 또 하나의 생태계

2022년부터 미국은 첨단 AI 칩의 중국 수출을 막기 시작했다. H100, H200, B200 같은 핵심 GPU는 중국으로 갈 수 없다. NVIDIA는 중국 전용 다운그레이드 모델(H20)을 만들어 팔았지만, 그조차 정책에 따라 막히기를 반복하고 있다.

결과는 미국이 의도한 대로 가지 않았다. 중국은 자체 칩 생태계 구축에 미친 속도로 자원을 쏟아부었다.

화웨이 어센드(Ascend) 중국의 NVIDIA

중국 AI 칩의 가장 큰 위협. 2026년 3월 화웨이는 선전에서 열린 '중국 파트너 콘퍼런스 2026'에서 100% 중국산 추론용 AI 가속기 'Atlas 350'을 공개했다. 화웨이 자체 NPU '어센드 950PR'과 자체 개발 HBM 'HiBL 1.0'을 탑재했고, 성능은 NVIDIA H20 대비 약 2.87배. 가격은 약 11만 위안(약 2,388만원)으로, NVIDIA H200(25만~40만 위안)의 절반 이하다.

화웨이는 한국에도 어센드 910을 출시할 계획을 발표했고, 미국 정부의 제재로 한국 HBM 수급이 막히자 중국 메모리 기업 CXMT와 협력해 자체 HBM을 확보했다. 설계·메모리·파운드리까지 전부 중국 안에서 돌리는 구조가 완성되어 가고 있다.

캠브리콘 (Cambricon, 寒武纪) 실적 폭발

"중국판 NVIDIA"로 불리는 AI 칩 설계 전문 기업. 2025년 상반기 매출이 전년 대비 44배 늘어 29억 위안(약 5,656억원)을 기록했고, 5억3천만 위안 순손실에서 10억3천만 위안 순이익으로 흑자 전환했다. 알리바바, 텐센트, 딥시크가 주요 고객이다.

기타 중국 AI 칩 플레이어 생태계
  • Biren Technology (壁仞): BR100 시리즈. NVIDIA A100/H100 대체 노린다.
  • Moore Threads (摩尔线程): GPU 출신 인력이 만든 게이밍·AI 겸용 GPU.
  • Hygon DCU: AMD GPU 라이선스 기반.
  • Iluvatar CoreX (天数智芯): 학습용 GPGPU.
  • Enflame (燧原), Sophgo (算能): 추론 특화.
  • MetaX (沐曦): 신생 AI GPU 스타트업.

딥시크가 신모델 V3.2-Exp를 출시하자, 캠브리콘과 화웨이는 출시 당일 호환 추론 엔진 소스코드를 공개했다. 하이곤 DCU도 같은 날 호환을 발표했다. 중국 AI 모델사와 칩 회사가 거의 한몸처럼 움직이는 생태계가 만들어지고 있다는 뜻이다.

핵심은 이거다. 제재가 중국 자체 생태계를 깰 줄 알았는데, 오히려 가속시켰다. 모델사(딥시크·알리바바·바이트댄스), 칩사(화웨이·캠브리콘), 메모리(CXMT), 파운드리(SMIC)가 한 묶음으로 움직이며 NVIDIA가 없어도 돌아가는 평행 우주가 점점 더 현실이 되고 있다.

7한눈에 정리: AI 가속기 비교표
구분 본질 주 위치 대표 제품
CPU 범용 프로세서. 분기·제어 강함, 병렬은 약함. 모든 컴퓨터 Intel Xeon, AMD EPYC, ARM Neoverse
GPU 그래픽 출력용 병렬 프로세서. 게임·렌더링. PC, 워크스테이션 NVIDIA RTX 5090, AMD Radeon
GPGPU GPU 병렬 구조를 일반·AI 연산에 활용. 데이터센터 NVIDIA H100/H200/B200/B300, AMD MI300X
TPU 구글이 만든 텐서 연산 전용 ASIC. 구글 클라우드 TPU v6 Trillium, v7 Ironwood
NPU 온디바이스 추론용 소형 AI 가속기. 폰, 노트북, 자동차 Apple Neural Engine, Qualcomm Hexagon, AMD XDNA
자체 ASIC 빅테크가 자기 워크로드용으로 만든 맞춤 칩. 각 사 클라우드 AWS Trainium, MS Maia, Meta MTIA
중국 AI 칩 NVIDIA 제재 우회용 자체 가속기. 중국 데이터센터 화웨이 Ascend 910/950, Cambricon, Biren
AI 가속기 위 모든 것의 우산 같은 단어. 'AI를 빨리 돌리는 전용 하드웨어' 전체.
"

"AI 칩"이라는 말은 더 이상 NVIDIA만을 가리키지 않는다. 학습은 여전히 H/B 시리즈가 압도적이지만, 추론 시장에서는 TPU·자체 ASIC·NPU·중국 칩이 동시다발적으로 점유율을 갉아먹고 있다.

8그래서, 결론은
1. 이름은 마케팅, 본질은 같다

GPU·GPGPU·TPU·NPU·LPU·IPU — 이름이 천 개라도 본질은 똑같다. 행렬 곱셈을 미친 듯이 빨리 처리하는 회로다. 차이는 1) 얼마나 특화되어 있는가 2) 얼마나 큰가 3) 어디에 들어가는가 정도다.

2. NVIDIA의 해자는 여전히 깊다

학습 시장에서 NVIDIA의 우위는 단순히 칩 성능 때문이 아니다. CUDA 생태계, NVLink 같은 인터커넥트, 검증된 신뢰성이 진짜 해자다. TPU와 자체 ASIC들이 추격 중이지만, "NVIDIA를 사면 일단 안전하다"는 인식은 쉽게 깨지지 않는다.

3. 그러나 추론에서는 균열이 시작됐다

구글은 Anthropic에 100만 칩 규모 TPU 계약을 따냈다. AWS·MS·Meta는 자체 칩 비중을 매년 늘리고 있다. 추론 워크로드는 점점 NVIDIA를 벗어난 곳에서 돌아간다.

4. 중국은 평행 우주를 짓고 있다

제재가 중국을 멈춘 게 아니라, 중국 자체 생태계 구축의 동력이 됐다. 화웨이 어센드, 캠브리콘, CXMT의 자체 HBM, SMIC의 7nm — 5년 전이라면 상상도 못 할 조합이다. 글로벌 AI 인프라가 미국 진영과 중국 진영으로 나뉘는 건 이미 진행 중인 현실이다.

5. 우리는 이종 가속기 시대로 간다

한 워크로드를 한 칩이 처리하는 시대는 끝났다. 학습은 GPGPU로, 대규모 추론은 TPU나 자체 ASIC으로, 엣지 추론은 NPU로 — 워크로드별로 가장 적합한 칩에 분배하는 'heterogeneous compute'가 새로운 표준이 되고 있다. AI 인프라를 이해한다는 건, 이제 NVIDIA 카탈로그를 외우는 게 아니라 이 칩들이 각자 어떤 자리에 있는지를 보는 일이다.

TAGS
#AI가속기 #GPU #GPGPU #TPU #NPU #엔비디아 #화웨이어센드 #구글TPU #AI반도체 #중국AI칩
반응형
LIST