AI

엔비디아 CUDA 생태계가 무서운 이유, 책상 위 AI 슈퍼컴퓨터로 직접 확인한 락인의 정체

marvin-jung 2026. 5. 31. 18:13
엔비디아 CUDA 생태계가 무서운 이유, 책상 위 AI 슈퍼컴퓨터로 직접 확인한 락인의 정체
엔비디아 DGX Spark와 같은 칩을 쓴 Lenovo 워크스테이션을 직접 다뤄봤습니다. AMD, 애플, 인텔, 구글, 화웨이까지 늘어놓고 보면, 사양표에 없는 힘 하나가 이 시장을 묶고 있습니다. 쿠다(CUDA) 생태계가 만든 개발자 락인의 정체를 현장에서 풀어봅니다.

책상 위에 올려놓고 쓰는 AI 슈퍼컴퓨터를 두 종류 직접 다뤄볼 기회가 있었습니다. 하나는 엔비디아(NVIDIA)의 DGX Spark, 다른 하나는 Lenovo가 같은 칩으로 만든 ThinkStation PGX였습니다. 개인적으로 산 물건은 아니라는 점만 밝혀두겠습니다. 업무 환경에서 두 머신을 나란히 쓸 일이 있었습니다.

두 제품이 사실상 같은 설계를 공유한다는 건, 다뤄보기 전부터 예상한 그대로였습니다. NVIDIA가 GB10 칩을 협력사에 공급하면 협력사는 그 위에 자사 외관과 관리 기능을 입혀 내놓습니다. OEM 구조에서는 당연한 일입니다. 그런데 이 당연한 구조를 책상 위에서 두 박스로 직접 확인하다 보면, 그 안에 숨은 진짜 권력이 어디에 있는지가 또렷하게 드러납니다. 박스 제조사가 누구든 그 안의 소프트웨어 세계는 한 회사가 쥐고 있다는 사실, 그 한 단어가 CUDA입니다.

반도체 쪽에서 일하다 보면 칩 사양표만 믿고 시장을 예측했다가 빗나가는 경우를 자주 봅니다. 이번 글에서는 그 어긋남이 가장 선명하게 드러나는 현장, 즉 비슷한 급의 AI 머신과 여러 칩 진영을 늘어놓았을 때 무슨 일이 벌어지는지를 통해 CUDA 생태계의 장악력이 얼마나 무서운지 짚어보겠습니다.

잠깐 체크합시다. AI 상식
CUDA가 대체 뭔가요?

쿠다(CUDA)는 엔비디아(NVIDIA)가 2006년에 내놓은 소프트웨어 플랫폼입니다. 원래 게임 그래픽용이던 GPU를 일반 계산, 특히 AI 연산에 쓸 수 있게 열어준 통로라고 보면 됩니다. 핵심은 두 가지입니다. 첫째, 쿠다는 단순한 드라이버가 아닙니다. 그 위에 cuDNN(딥러닝 연산), cuBLAS(행렬 계산), NCCL(여러 GPU 묶기), TensorRT(추론 최적화) 같은 라이브러리가 층층이 쌓여 있습니다. 둘째, CUDA는 오픈소스가 아니라 엔비디아의 독점 플랫폼입니다. 엔비디아 GPU에서만 돌아가도록 설계되어 있고, 다른 회사가 그대로 가져다 쓸 수 없습니다.

개발자 입장에서는 PyTorch로 코드를 짜면 그 아래에서 CUDA가 알아서 NVIDIA GPU를 굴려줍니다. 우리가 AI 모델을 만들 때 쓰는 거의 모든 도구가 이 닫힌 플랫폼을 기본값으로 깔고 있다는 뜻입니다. 닫혀 있는데도 모두가 그 위에서 일한다는 것, 이게 뒤에서 이야기할 해자의 출발점입니다.

박스는 여럿이어도, 안은 하나의 세계다

OEM 비즈니스를 다뤄본 사람이라면 이 구조가 익숙할 겁니다. NVIDIA는 GB10 칩을 자사 DGX Spark뿐 아니라 Dell, ASUS, Acer, Lenovo 같은 협력사에 똑같이 공급합니다. 협력사는 그 위에 자사 외관과 쿨링, 기업용 관리 기능을 얹어 자기 브랜드로 내놓습니다. DGX Spark와 Lenovo ThinkStation PGX가 칩도 메모리도 폼팩터도 사실상 같은 이유가 여기 있습니다. AI를 돌리는 입장에서 두 제품의 체감 차이가 크지 않은 것은 설계상 당연한 결과입니다.

중요한 건 그 다음입니다. 이 모든 박스가 NVIDIA의 DGX OS(우분투 기반)에 CUDA와 cuDNN, TensorRT가 미리 깔린 채로 출고됩니다. 하드웨어 제조사가 누구든, 그 안에서 돌아가는 소프트웨어 세계는 NVIDIA가 통째로 쥐고 있습니다. 박스를 만드는 회사는 여럿이지만, 그 박스 안의 표준은 단 하나라는 뜻입니다.

여기서 흔한 오해 하나를 짚고 싶습니다. 여러 대기업이 각자 AI 머신을 내놓으니 시장 경쟁이 치열할 것 같지만, 실제 구조는 정반대입니다. 박스를 내놓는 회사가 늘어날수록, 그 안의 CUDA 생태계는 더 단단해집니다. 겉으로 경쟁처럼 보이는 것이 사실은 한 생태계의 확장입니다. 책상 위에 두 박스를 나란히 놓고 보면, 이 장면이 CUDA 해자의 본질을 압축해서 보여줍니다.

CUDA는 어떻게 AI 세계의 표준 궤간이 되었나
잠깐 체크합시다. AI 상식
'해자(垓子, moat)'가 무슨 뜻인가요?

원래 해자는 성을 둘러싼 깊은 물길입니다. 적이 성벽에 닿기 전에 먼저 건너야 하는 장애물이죠. 경영에서는 이 말을 빌려, 경쟁사가 쉽게 따라올 수 없게 만드는 기업의 구조적 강점을 뜻합니다. 워런 버핏이 즐겨 쓰면서 널리 퍼진 표현입니다. 칩 성능처럼 돈을 더 들이면 따라잡히는 것은 해자가 아닙니다. 경쟁사가 같은 칩을 만들어도 넘어오기 어려운 것, 예컨대 모든 개발자가 이미 CUDA 위에서 일하고 있다는 사실 같은 것이 진짜 해자입니다.

CUDA가 처음 나왔을 때 학계 바깥에서는 거의 주목받지 못했습니다. 그러나 NVIDIA는 약 20년에 걸쳐 이 플랫폼에 꾸준히 투자했습니다. 칩만 판 게 아니라 라이브러리, 개발자 커뮤니티, 대학 교육 과정까지 생태계 전체를 키웠습니다. AI 붐이 터졌을 때 NVIDIA는 따라잡으려 허둥댄 것이 아니라, 이미 모든 곳에 박혀 있었습니다.

이 구조를 가장 잘 설명하는 비유가 철도의 궤간입니다. 19세기에 어느 지역이 특정 폭의 선로를 수천 킬로미터 깔아버리면, 아무리 더 좋은 기관차를 만든 회사라도 기존 선로 폭에 맞춰야 했습니다. 안 그러면 그 멋진 기관차는 달릴 곳이 없으니까요. 지금 AI 개발 세계의 표준 궤간이 바로 CUDA입니다.

이건 단순한 전환 비용을 넘어선 네트워크 효과입니다. Hugging Face에 올라온 수십만 개의 모델 대부분이 NVIDIA 하드웨어 위 CUDA 커널로 학습되고 검증되었습니다. 새 모델이 CUDA에 맞춰 나올수록 다음 개발자에게 CUDA 생태계는 더 가치 있어집니다. 칩 성능 경쟁이 아니라, 습관과 관성과 축적된 코드가 만들어낸 진짜 해자입니다.

경쟁사가 더 높고 멋진 성을 지을 수는 있습니다. 그러나 그 성에 물을 대줄 강, 즉 개발자와 도구와 기존 자산이 모두 CUDA라는 물길에 연결되어 있다면, 새 성은 결국 물 부족으로 버려집니다.
오픈소스도 아닌데 어떻게 개발자 락인에 성공했나

여기서 자연스러운 의문이 생깁니다. CUDA가 오픈소스도 아닌 독점 플랫폼이라면, 대체 어떻게 전 세계 개발자를 안에 가둘 수 있었을까요. 보통 개발자는 닫힌 기술을 꺼리기 마련인데 말입니다. 답은 NVIDIA가 "닫아두는 것"과 "들여보내는 것"을 분리했다는 데 있습니다.

1. 소스는 닫되, 진입은 공짜로 열었다

독점과 무료는 다른 이야기입니다. CUDA는 소스 코드를 공개하지 않을 뿐, 개발자에게는 무료로 풉니다. NVIDIA GPU만 있으면 누구나 CUDA 툴킷을 공짜로 내려받아 쓸 수 있습니다. 비용 장벽이 없으니 학생도 스타트업도 일단 발을 들입니다. 닫혀 있지만 문턱은 낮은, 묘한 조합입니다.

2. 너무 편하고 빨라서 나갈 이유가 없게 만들었다

NVIDIA는 20년간 cuDNN, TensorRT 같은 고도로 최적화된 라이브러리를 무료로 쌓아 올렸습니다. 개발자는 어려운 GPU 최적화를 직접 하지 않고 이 라이브러리만 불러 쓰면 최고 성능이 나옵니다. 한번 이 편의에 익숙해지면, 같은 작업을 다른 진영에서 맨바닥부터 다시 만드는 일이 곧 손해가 됩니다. 잠금장치는 자물쇠가 아니라 편리함이었습니다.

3. 사람과 자산이 통째로 묶여버렸다

진짜 못을 박은 건 생태계입니다. 대학이 CUDA로 가르치고, 논문이 CUDA로 작성되고, Hugging Face의 수십만 모델이 CUDA 위에서 검증됩니다. 신입 엔지니어는 이미 CUDA를 배워서 입사하고, 기업은 CUDA를 다룰 줄 아는 사람을 뽑습니다. 개인이 다른 진영으로 옮기고 싶어도, 내 코드와 동료와 채용 시장이 전부 CUDA에 묶여 있어 혼자 빠져나오기 어렵습니다.

정리하면 이렇습니다. 엔비디아는 소스를 닫아둔 채로 무료 개방과 압도적 편의로 모두를 안에 들여보낸 뒤, 생태계라는 문을 잠갔습니다. 흔히 말하는 락인 효과가 칩이 아니라 소프트웨어와 사람으로 완성된 셈입니다. 개방형을 내세우는 경쟁 진영이 고전하는 이유가 여기 있습니다. 문제는 기술의 개방 여부가 아니라, 사람들이 이미 어디에 모여 일하고 있느냐이기 때문입니다.

그래서 CUDA는 정확히 어디에 있나

해자라는 말이 와닿으려면, CUDA가 소프트웨어 더미에서 어느 층에 앉아 있는지를 봐야 합니다. AI 머신은 위에서 아래로 여러 층이 쌓인 구조입니다. 맨 위에 사용자가 쓰는 앱이 있고, 맨 아래에 GPU 칩이 있습니다. CUDA는 그 사이, 정확히는 개발자가 다루는 소프트웨어와 칩이 만나는 길목에 자리합니다.

1
사용자 앱
"이번 분기 실적으로 발표자료 만들어줘" 같은 요청을 받는 프로그램
2
LLM 모델과 추론 엔진
요청을 이해하고 문장과 슬라이드 구성을 만들어내는 두뇌 (vLLM, llama.cpp 등)
3
프레임워크
모델을 코드로 돌리는 표준 도구 (PyTorch 등)
4
CUDA 라이브러리 · 런타임 바로 이 층
cuDNN, TensorRT 등. 프레임워크의 명령을 GPU가 알아듣는 말로 옮기는 통역층
5
GPU 하드웨어
실제로 계산을 수행하는 칩 (GB10, H200 등)

핵심은 4층입니다. 위의 1~3층은 개발자와 모델의 세계, 5층은 칩의 세계인데, 이 둘은 서로 말이 통하지 않습니다. 그 사이에서 통역을 맡는 것이 CUDA입니다. 위층의 모든 명령은 결국 이 통역층을 거쳐야 칩에 닿습니다. 그래서 NVIDIA는 칩 하나만 쥔 게 아니라, 모든 명령이 반드시 지나가야 하는 길목을 쥐고 있는 셈입니다. 해자가 여기 있습니다.

잠깐 체크합시다. AI 상식
개인용 AI 슈퍼컴퓨터로 PPT를 만들면, 이 층들이 이렇게 움직입니다

책상 위 DGX Spark에 "이번 분기 실적으로 발표자료 초안을 만들어줘"라고 입력했다고 해봅시다. 이 한 문장이 다섯 층을 차례로 타고 내려갑니다.

사용자 앱이 요청을 받아(1층) LLM에 넘기면, 모델이 슬라이드 흐름과 문구를 구상합니다(2층). 이 계산은 PyTorch 같은 프레임워크가 코드로 풀어내고(3층), 그 코드는 CUDA를 통해 GPU가 알아들을 명령으로 번역됩니다(4층). 마지막으로 GB10 칩이 실제 연산을 수행해(5층) 결과를 위로 돌려보내면, 화면에 슬라이드 초안이 뜹니다. 여기서 4층 CUDA를 빼면, 아무리 좋은 모델과 칩이 있어도 둘이 대화하지 못해 발표자료는 영영 만들어지지 않습니다.

CUDA 대안 진영을 다 늘어놓아 보자

흔히 로컬 AI 시장을 NVIDIA, AMD, Apple 셋으로만 이야기합니다. 그러나 실제로 칩 한 종류 뒤에는 반드시 그 칩을 굴리는 소프트웨어 스택이 짝지어 있습니다. 그리고 그 소프트웨어가 진짜 승부처입니다. 칩 진영을 소프트웨어 기준으로 다시 펼치면 이렇게 됩니다.

진영 대표 하드웨어 소프트웨어 스택 CUDA 대비 위치
NVIDIA GB10, H200, B200 (DGX Spark, Lenovo PGX 등) CUDA · cuDNN · TensorRT 사실상의 표준. 거의 모든 도구의 기본값
AMD Ryzen AI Max+ 395, Instinct MI300X / MI400 ROCm · HIP 오픈 표준 지향. 빠르게 성숙 중이나 손이 감
Apple M3 Ultra (Mac Studio) Metal · MLX 추론에 강하나 CUDA 자산은 못 가져옴
Intel Gaudi 3, 데이터센터 GPU oneAPI · SYCL 벤더 독립 표준 지향. 생태계는 아직 작음
Google TPU v7 (자체 클라우드) XLA · JAX (자체 스택) CUDA를 깨지 않고 옆에 평행 생태계 구축
화웨이 Ascend 910 / 950 시리즈 CANN · MindSpore 중국의 자립 답안. 오픈소스로 생태계 키우는 중

표의 마지막 열이 핵심입니다. 어느 진영도 칩 성능 자체가 모자라서 밀리는 게 아닙니다. 전부 소프트웨어 생태계의 두께에서 차이가 납니다. 하나씩 짚어보겠습니다.

NVIDIA · CUDA
책상 위 코드가 데이터센터에서 그대로 돈다

DGX Spark와 Lenovo PGX의 진짜 강점은 성능이 아니라 연속성입니다. 데이터센터의 큰 GPU에서 돌리던 코드를 거의 고치지 않고 책상 위에서 그대로 돌려보고, 다시 클라우드로 올려 배포할 수 있습니다. 연구자가 가장 두려워하는 일, 즉 로컬에서 잘 되던 게 서버에서 다르게 동작하는 상황이 거의 없습니다. 사람들이 프리미엄을 내는 이유가 여기 있습니다.

AMD · ROCm
하드웨어는 매력적, 숙제는 소프트웨어

AMD의 Ryzen AI Max+ 395는 가격 대비 성능이 좋고, 데이터센터용 Instinct 칩은 메모리 용량에서 NVIDIA를 앞서는 구간도 있습니다. 문제는 ROCm입니다. 빠르게 좋아지고 있지만, CUDA에서는 그냥 되던 것이 AMD에서는 설정과 튜닝을 요구하는 경우가 생깁니다. 팀이 익숙해지는 데 며칠이면 되는 CUDA와 달리, 몇 주가 걸린다는 현장 증언이 많습니다. 이 작은 마찰이 쌓여 진입 장벽이 됩니다.

Apple · Metal과 MLX
추론 성능은 최강급, 그러나 다른 우주

Mac Studio는 최대 512GB 통합 메모리에 약 819 GB/s 대역폭으로, 추론 토큰 속도에서 책상 위 NVIDIA 머신을 앞서는 구간이 많습니다. MLX 프레임워크도 잘 다듬어져 있어, Mac에서 모델을 돌리는 것 자체는 쾌적합니다. 다만 Mac은 CUDA가 아니라 Metal과 MLX라는 별도의 길을 씁니다. 그래서 CUDA 전용으로 짜인 코드나 TensorRT 같은 NVIDIA 전용 도구에 묶인 작업은 Mac에서 그대로 돌지 않고, MLX용으로 다시 짜거나 대체 도구를 찾아야 합니다. Mac에서 AI를 못 한다는 뜻이 아니라, CUDA 세계에 쌓인 자산을 그대로 옮겨올 수 없다는 뜻입니다.

Intel · oneAPI
표준화로 승부, 그러나 시작이 늦었다

Intel은 Gaudi 가속기와 oneAPI로 다른 길을 갑니다. 특정 벤더에 묶이지 않는 개방형 표준(SYCL 기반)으로 가자는 전략입니다. 가격이 낮고 클라우드 종속이 적다는 장점이 있습니다. 다만 커뮤니티가 작아 튜토리얼과 사례가 부족하고, 추론 성능에서도 아직 격차가 남아 있습니다. 방향은 건강하지만 시간이 더 필요합니다.

Google · TPU
CUDA를 깨지 않고 옆길을 낸다

구글의 TPU는 가장 진지한 우회 전략입니다. CUDA를 직접 깨려 들지 않고, 자체 칩에 XLA와 JAX라는 자기만의 소프트웨어 스택을 얹어 평행 생태계를 짓습니다. 자기 워크로드에 최적화하는 대신, CUDA 생태계의 폭넓음은 포기하는 방식입니다. 이 길은 막대한 투자를 감당할 수 있는 하이퍼스케일러에게만 열려 있습니다.

화웨이 · CANN과 MindSpore
중국의 자립 답안, 통째로 다시 짓는다

중국 진영의 답은 화웨이 Ascend 칩에 CANN이라는 소프트웨어 스택을 얹는 것입니다. CANN은 CUDA와 정확히 같은 층에 위치하고, 그 위에 PyTorch 격인 MindSpore 프레임워크가 짝을 이룹니다. 즉 "GPU + CUDA + PyTorch"에 대응하는 "Ascend + CANN + MindSpore"라는 평행 세트입니다. 화웨이는 CANN을 오픈소스로 풀고 PyTorch를 그대로 돌릴 수 있는 백엔드도 밀고 있습니다. 개발자 경험은 아직 CUDA에 못 미친다는 평가가 일반적이지만, 격차를 좁히는 속도가 빠릅니다.

잠깐 체크합시다. AI 상식
다들 비슷한 스택을 가졌는데, 왜 격차가 안 좁혀지나요?

표를 보면 진영마다 CUDA에 대응하는 소프트웨어 스택을 하나씩 갖추고 있습니다. AMD는 ROCm, 화웨이는 CANN처럼 말이죠. 구색만 보면 비슷합니다. 그런데 실제 격차는 구색이 아니라 성숙도에서 벌어집니다.

성숙도란 그 스택을 써본 사람이 얼마나 많고, 막혔을 때 검색하면 나오는 해결 사례가 얼마나 쌓여 있는지를 말합니다. CUDA는 20년치 사례와 라이브러리가 쌓여 있어, 문제가 생겨도 대부분 누군가 이미 풀어놨습니다. 후발 주자는 칩 성능을 따라잡아도 이 시간의 두께만큼은 단번에 메우기 어렵습니다. 격차의 정체는 칩이 아니라 쌓인 시간입니다.

무서운 지점은, 스펙으로 지는데도 지지 않는다는 것

정리하면 이렇습니다. 메모리 대역폭은 Apple이 앞서고, 가격은 AMD가 더 쌉니다. 개방성은 Intel이, 자체 최적화는 구글이, 자립 의지는 화웨이가 내세웁니다. 순수 하드웨어나 전략의 다양성만 보면 NVIDIA가 모든 항목에서 1등은 아닙니다. 그런데도 현실에서는 개발자와 연구자가 NVIDIA에 기꺼이 지갑을 엽니다.

그 차액은 칩이 아니라 CUDA 호환성에 내는 값입니다. 로컬에서 만든 그대로 데이터센터에 올라가고, 세상의 거의 모든 AI 라이브러리와 예제와 디버깅 도구가 처음부터 내 편이라는 안심. 그것 하나를 위해 프리미엄을 내는 것입니다. DGX Spark와 Lenovo 머신을 책상 위에 나란히 놓고 보면, 그 안심의 정체가 곧 해자라는 사실이 더 분명해집니다.

표현을 빌리면, CUDA는 잘 꾸며진 새장입니다. 안이 편하고 도구가 다 갖춰져 있으니, 굳이 문을 열고 나갈 이유를 못 느끼게 만듭니다. 성능이 비슷해도 다른 진영으로 옮기다가 실제 서비스에서 성능이 어긋날 위험을 감수하느니, 그냥 CUDA에 남는 선택이 합리적으로 보이는 것입니다.

반도체 관점에서 본 진짜 메시지

이 비교에서 제가 가장 주목하는 흐름은 두 가지입니다.

첫째, 하드웨어 전쟁의 승부가 점점 소프트웨어에서 결정된다는 점입니다. 칩 면적이나 트랜지스터 수가 아니라, 그 칩 위에 얼마나 두껍고 안정적인 소프트웨어 층을 쌓았느냐가 시장 점유율을 가릅니다. NVIDIA가 사실상 소프트웨어 회사라는 말이 과장이 아닙니다. 구글과 화웨이가 자체 칩으로 이 해자를 우회하려는 시도조차, CUDA를 깨는 게 아니라 자기만의 평행 생태계를 따로 짓는 방식이라는 점이 이를 역으로 증명합니다.

둘째, 진영이 늘어날수록 소프트웨어 생태계의 가치가 더 커진다는 점입니다. 칩을 만들 수 있는 회사는 늘고 있지만, 그 칩을 편하게 쓰게 해주는 성숙한 소프트웨어를 갖춘 곳은 여전히 드뭅니다. 메모리를 다루는 입장에서 보면, AI 머신의 가치가 연산 칩만큼이나 그 위의 소프트웨어와 메모리 설계에 크게 의존하기 시작했다는 신호입니다. 다음 세대 경쟁의 진짜 전장은 칩 공장이 아니라 개발자의 손끝에 있습니다.

한 줄 정리

박스를 만드는 회사는 여럿이어도, 그 안은 하나의 CUDA 세계입니다. AMD, Apple, Intel, 구글, 화웨이가 각자의 무기로 도전하지만, NVIDIA가 프리미엄을 받는 이유는 칩이 아니라 모두가 이미 그 위에서 일하고 있다는 사실 자체입니다. 무서운 건 성능이 아니라 관성입니다.

다음 글에서 다뤄보면 좋을 주제

여섯 진영 중 CUDA를 우회하는 두 가지 길, 즉 구글의 TPU와 화웨이의 CANN을 정면으로 비교해보면 좋겠습니다. 하나는 자본으로, 하나는 자립 의지로 평행 생태계를 짓습니다. 두 전략이 실제로 어디까지 통하고 있는지, 그리고 NVIDIA의 해자에 어떤 균열을 낼 수 있는지 한 편으로 풀어보겠습니다.

#쿠다 #CUDA #엔비디아 #엔비디아생태계 #락인효과 #DGXSpark #AI슈퍼컴퓨터 #로컬AI #AI반도체 #화웨이CANN