GPU는 다들 압니다. 거기에 구글의 TPU가 붙고, 휴대폰 광고에는 NPU가 나오고, 최근에는 알리바바가 PPU라는 이름까지 들고 나왔습니다. 거기에 웨이퍼 한 장을 통째로 칩으로 쓰는 세레브레스 같은 회사도 있습니다. 매년 새 이름이 하나씩 늘어나는 느낌입니다.
먼저 이름부터 풀어보겠습니다. GPU는 Graphics Processing Unit, 그래픽 처리 장치입니다. TPU는 Tensor Processing Unit, 텐서 처리 장치입니다. 여기서 텐서는 AI 계산에 쓰는 숫자 묶음을 가리킵니다. NPU는 Neural Processing Unit, 신경망 처리 장치입니다. PPU는 Parallel Processing Unit, 병렬 처리 장치이고, 알리바바가 2026년에 공개한 AI 칩이 이 이름을 씁니다.
이 칩들의 뼈대는 거의 같습니다. 그런데 동시에, 진짜로 다른 부분도 분명히 있습니다. 어디까지가 진짜 구조 차이이고 어디부터가 이름 장사인지, 비유 없이 회로가 실제로 무슨 일을 하는지로 풀어보겠습니다. GPU와 TPU, NPU의 차이점이 헷갈리셨다면 이 글 하나로 정리될 겁니다.
AI 연산은 종류가 많아 보이지만, 실제로 칩 안에서 일어나는 계산의 대부분은 한 가지입니다. 숫자 두 개를 곱하고, 그 결과를 이전 값에 더하는 것. 이걸 수백억 번 반복하는 것이 AI 연산의 본체입니다.
이 "곱하고 더하기"를 한 번에 처리하는 작은 회로를 MAC(Multiply-Accumulate)이라고 부릅니다. AI 칩이라는 것은 결국 이 MAC 회로를 아주 많이 모아둔 물건입니다. GPU도, TPU도, NPU도, PPU도, 세레브레스도 안쪽을 보면 전부 이 MAC 회로 덩어리입니다. 여기까지는 차이가 없습니다.
MAC은 Multiply-Accumulate, 즉 "곱한 다음 더하기"를 뜻합니다. 예를 들어 3 곱하기 2를 한 결과 6을, 앞서 계산해 둔 10에 더해서 16으로 만드는 동작입니다. 이 동작 하나만 빠르게 처리하면 AI 계산의 거의 전부를 처리할 수 있습니다.
AI 모델의 계산은 행렬 곱셈이라는 형태로 이뤄지는데, 행렬 곱셈을 잘게 쪼개면 그 안은 전부 "곱하고 더하기"의 반복입니다. 그래서 MAC 회로를 많이 깔수록 AI 계산이 빨라집니다.
그러니까 "이 칩은 곱셈과 덧셈을 하느냐"로는 GPU와 TPU를 구분할 수 없습니다. 둘 다 합니다. 진짜 차이는 한 단계 위에 있습니다.
MAC 회로 자체는 비슷합니다. 진짜 차이는 이 회로들을 어떻게 늘어놓고, 숫자를 어떤 순서로 흘려보내느냐에 있습니다. 여기서 GPU와 TPU의 길이 완전히 갈립니다.
이 방식의 장점은 유연함입니다. 계산 종류가 바뀌어도 명령만 바꾸면 됩니다. 그래서 GPU는 AI 학습처럼 계산 방식이 계속 바뀌는 작업에 강합니다. 대신 숫자를 매번 메모리에서 꺼내고 다시 넣는 왕복이 잦아서, 그 이동에 시간과 전력이 들어갑니다. 또 어떤 회로를 언제 돌릴지를 하드웨어가 실행 중에 그때그때 정합니다.
TPU의 핵심 부품은 MAC 회로를 격자 모양으로 빽빽하게 붙여놓은 구조입니다. 구글 TPU의 경우 가로 256개, 세로 256개, 합쳐서 약 6만 5천 개의 회로가 한 판에 붙어 있습니다. 먼저 모델의 고정된 숫자(가중치)를 격자 안에 채워 두고, 입력 숫자가 왼쪽에서 들어와 한 칸씩 이동합니다. 각 회로는 지나가는 숫자와 저장된 숫자를 곱하고, 위에서 내려온 중간 합계에 더한 뒤, 옆과 아래로 넘깁니다.
여기서 중요한 점이 두 가지입니다. 첫째, 숫자가 일단 격자에 들어오면 계산이 끝날 때까지 메모리로 다시 나가지 않습니다. 회로에서 회로로 직접 넘어가기 때문에 메모리 왕복이 크게 줄고, 같은 계산을 더 적은 전력으로 처리합니다. 둘째, GPU가 실행 중에 순서를 정하는 것과 달리 TPU는 어떤 계산을 어떤 순서로 할지를 컴파일 단계에서 미리 다 정해둡니다. 칩 안에는 그 정해진 순서대로 흘려보내는 단순한 회로만 있으면 됩니다.
GPU의 방식을 SIMT(Single Instruction, Multiple Threads)라고 부릅니다. "여러 회로에 같은 명령을 한 번에 내린다"는 뜻입니다. TPU의 격자 방식은 시스톨릭 어레이(systolic array)라고 부릅니다. 숫자가 회로 사이를 박자에 맞춰 한 칸씩 이동한다는 의미입니다.
여기서 "컴파일 때 순서를 정한다"는 말은, 칩을 돌리기 전에 소프트웨어가 모든 계산 순서를 미리 짜둔다는 뜻입니다. 그래서 TPU는 제어용 회로가 칩 면적의 2% 정도밖에 안 될 만큼 단순하고, 그만큼 계산 회로를 더 많이 넣을 수 있습니다. 대신 정해진 틀에서 벗어나는 계산에는 약합니다.
NPU는 안쪽을 보면 역시 MAC 회로를 모아둔 구조이고, 데이터를 칩 안에서 최대한 안 움직이게 만드는 설계 철학은 TPU와 비슷합니다. 다른 점은 두 가지입니다. 크기가 작고, 전력을 적게 씁니다. 정확도를 조금 낮춘 작은 숫자로 계산해서 발열과 전력을 줄입니다. 그래서 휴대폰이 사진을 보정하거나 음성을 알아듣는 정도의 계산을 충전 걱정 없이 돌립니다.
그런데 NPU가 휴대폰 전용은 아닙니다. 데이터센터용 대형 NPU도 있습니다. 예를 들어 화웨이는 자사 데이터센터 AI 칩(Ascend 계열)을 NPU라고 부릅니다. 같은 NPU라는 이름이 손바닥만 한 휴대폰 칩에도, 서버 랙에 들어가는 큰 칩에도 붙는 셈입니다. 이름만으로는 크기를 알 수 없다는 또 하나의 사례입니다.
PPU는 Parallel Processing Unit, 병렬 처리 장치라는 뜻입니다. 2026년 5월 알리바바의 반도체 자회사 T-Head(핑터우거, 平头哥 · píng tóu gē · 핑터우거)가 M890이라는 AI 칩을 공개하면서 자사 구조를 PPU라고 불렀습니다. 메모리 144GB(HBM)에 칩 사이 연결 대역폭 800GB/s를 갖췄고, 긴 맥락을 오래 다루는 에이전트형 AI 작업에 맞췄으며, 학습과 추론을 한 칩에서 모두 처리한다고 알리바바는 설명합니다.
그런데 PPU의 속을 보면 앞에서 본 것과 큰 틀이 다르지 않습니다. 행렬 곱셈을 위한 MAC 회로 배열을 여러 묶음으로 병렬로 돌리고, 큰 메모리를 붙인 구조입니다. 즉 PPU는 완전히 새로운 원리의 칩이라기보다, 알리바바가 자기 가속기에 붙인 이름에 가깝습니다. 새 이름이 곧 새 구조를 뜻하지는 않습니다.
보통 반도체는 큰 웨이퍼 한 장에 칩 수백 개를 새긴 뒤 잘라서 따로따로 씁니다. 그래서 여러 칩을 다시 선으로 연결하고, 그 선을 통해 데이터를 주고받습니다. 세레브레스(Cerebras)는 이 과정을 뒤집었습니다. 웨이퍼를 자르지 않고 통째로 한 개의 거대한 칩으로 씁니다. 이런 방식을 웨이퍼 스케일(wafer-scale)이라고 부르고, 최신 칩 WSE-3(Wafer-Scale Engine)는 약 90만 개의 코어와 4조 개의 트랜지스터를 한 장에 담았습니다.
핵심은 크기가 아니라 메모리를 칩 안에 직접 박아 넣었다는 점입니다. 보통 칩은 계산할 숫자를 칩 밖 메모리에서 꺼내 와야 하는데, 세레브레스는 모델을 칩 안 메모리에 그대로 올려둡니다. 그래서 데이터가 칩 밖으로 거의 나가지 않고, 그만큼 빠릅니다. 앞의 GPU나 TPU가 "회로 배치"로 갈렸다면, 세레브레스는 "칩을 쪼개느냐 마느냐"라는 더 근본적인 선택에서 갈립니다.
| 이름 (풀네임) | 핵심 구조 | 진짜 구조 차이가 있나 | 주로 들어가는 곳 |
|---|---|---|---|
| GPU Graphics Processing Unit |
작은 코어 수천 개에 같은 명령 (SIMT). 실행 중 순서 결정 | 있음. 유연한 병렬 처리 | 데이터센터, PC |
| TPU Tensor Processing Unit |
격자에 가중치 고정, 숫자가 흐름 (시스톨릭 어레이). 순서는 컴파일 때 결정 | 있음. 고정 격자 + 정적 스케줄 | 구글 클라우드 |
| NPU Neural Processing Unit |
소형 MAC 배열, 저전력 | 부분적. 원리는 같고 크기와 전력이 다름 | 휴대폰부터 서버까지 |
| PPU Parallel Processing Unit |
MAC 배열을 병렬로 묶고 큰 메모리를 붙임. 학습·추론 겸용 | 부분적. GPU·TPU 계열과 큰 틀을 공유 | 데이터센터 (알리바바 M890) |
| WSE 세레브레스 웨이퍼 칩 |
웨이퍼 전체가 한 칩, 메모리 내장 | 있음. 칩을 쪼개지 않음 | 데이터센터 (추론 특화) |
표를 보면 답이 나옵니다. 양쪽 다 맞습니다. SIMT와 시스톨릭 어레이, 웨이퍼 스케일은 진짜로 다른 구조입니다. 회로를 늘어놓는 방식, 숫자가 흐르는 경로, 칩을 쪼개느냐가 실제로 다릅니다. 이건 마케팅이 아니라 설계의 차이입니다.
그러나 이름이 이렇게 많은 데에는 포지셔닝의 몫도 큽니다. 들어가는 자리에 따라, 노리는 작업에 따라 회사들이 각자 새 이름을 붙입니다. 같은 NPU가 휴대폰에도 서버에도 붙고, 알리바바가 자기 가속기를 PPU라고 부르는 것처럼, 이름이 안쪽 구조를 그대로 알려주지는 않습니다.
이 칩들의 뼈대는 같습니다. 전부 곱셈과 덧셈을 하는 MAC 회로를 잔뜩 모아둔 물건입니다.
그러나 진짜로 다른 것이 있습니다. 그 회로를 어떻게 배치하고, 숫자를 어떻게 흘려보내고, 실행 순서를 언제 정하고, 칩을 쪼개느냐 마느냐입니다. 여기서 전력 효율과 유연함이 갈립니다.
이름이 이렇게 많은 이유는 절반은 진짜 구조 차이, 절반은 시장 포지셔닝이라고 보는 편이 가장 정확합니다. 그래서 새 칩이 나오면 이름보다 안쪽 구조부터 보는 습관이 필요합니다.
반도체 쪽에서 일하다 보면, 새 칩 이름이 나왔을 때 가장 먼저 보는 것은 이름이 아니라 두 가지입니다. 데이터를 칩 안에서 얼마나 안 움직이게 설계했는가, 그리고 메모리 대역폭은 얼마인가.
이름은 회사가 정하지만, 전력과 데이터 흐름은 못 속이기 때문입니다. 그래서 새 가속기 발표를 볼 때 마케팅 명칭은 잠깐 옆에 두고, 회로 배치도와 메모리 구성부터 찾아봅니다. 이 글도 그 순서대로 써본 셈입니다.
TPU가 실행 순서를 컴파일 단계에서 미리 정한다는 이야기를 했는데, 사실 칩의 진짜 경쟁력은 여기, 소프트웨어에 있습니다. 같은 격자, 같은 회로를 깔아도 그 위에서 도는 컴파일러(엔비디아의 CUDA, 구글의 XLA)가 성능을 좌우합니다. 칩 안의 회로를 봤으니, 다음에는 그 회로를 실제로 움직이는 소프트웨어 층을 들여다보겠습니다.
'AI' 카테고리의 다른 글
| OpenAI는 왜 직접 데이터센터를 짓기 시작했나, 스타게이트(Stargate)와 마이크로소프트 Azure 10년 동맹의 균열 (0) | 2026.05.31 |
|---|---|
| 엔비디아 CUDA 생태계가 무서운 이유, 책상 위 AI 슈퍼컴퓨터로 직접 확인한 락인의 정체 (0) | 2026.05.31 |
| NIC, SmartNIC, DPU, IPU, SuperNIC, 네트워크 카드 이름은 왜 이렇게 많아졌나 (0) | 2026.05.29 |
| 대구 광부의 손자에서 OpenAI 410억 달러 베팅까지, 손정의와 소프트뱅크 60년 총정리 (1) | 2026.05.24 |
| 알리바바 판구(Pangu) 스토리지 해부: 신화 속 도끼는 어떻게 데이터센터의 척추가 되었나 (0) | 2026.05.19 |