1. DeepSeek가 2026년 4월 24일 V4-Pro(1.6T)와 V4-Flash(284B) 두 모델을 동시에 공개했으며, 두 모델 모두 100만 토큰 컨텍스트를 기본으로 지원합니다.
2. LiveCodeBench 93.5점, Codeforces 3206점으로 코딩 분야에서 GPT-5.4와 Claude Opus 4.6을 모두 앞질렀고, 이는 오픈소스 모델 사상 최초의 사건입니다.
3. 하이브리드 어텐션(CSA+HCA) 덕분에 100만 토큰 환경에서 KV 캐시를 V3.2 대비 10%로 줄였고, 가격은 Claude Opus 4.7의 약 1/14 수준에 불과합니다.
2025년 1월, DeepSeek-R1이 등장하며 전 세계 AI 업계를 뒤흔든 지 정확히 1년 3개월 만입니다. 항저우의 이 작은 연구소가 다시 한 번 판을 흔들었습니다. 2026년 4월 24일, DeepSeek는 V4 시리즈의 프리뷰 버전을 전격 공개했고, 이번에는 단순한 가격 파괴가 아니라 아키텍처 자체의 패러다임을 바꾸는 시도였습니다.
이번 글에서는 DeepSeek V4가 정확히 무엇이고, 왜 업계가 다시 한 번 술렁이는지, 그리고 어떤 점이 정말로 참신한지를 베이징에서 중국 AI 시장을 가까이 지켜보는 입장에서 정리해드립니다.
DeepSeek V4는 두 개의 모델로 구성되어 있습니다. 플래그십 V4-Pro와 비용 효율형 V4-Flash입니다. 2026년 4월 24일에 동시 공개된 두 모델은 1.6조 파라미터의 V4-Pro와 2,840억 파라미터의 V4-Flash로 나뉘며, 양쪽 모두 100만 토큰 컨텍스트 윈도우와 오픈 가중치를 지원합니다.
토큰은 AI 모델이 글을 처리하는 최소 단위입니다. 영어 단어 하나가 보통 1~2 토큰이고, 한국어는 글자당 약 2~3 토큰입니다. 100만 토큰은 한국어 책 약 5~6권 분량을 한 번에 읽고 답할 수 있다는 뜻입니다. 어떤 회사의 1년치 회의록 전체를 한 번에 던져 넣고 질문할 수 있는 수준입니다.
V4의 가장 중요한 변화는 어텐션 메커니즘 자체를 완전히 다시 설계했다는 점입니다. 기존 트랜스포머의 풀 어텐션은 컨텍스트가 길어질수록 계산량이 제곱으로 늘어나는 구조였습니다. 100만 토큰을 처리하려면 GPU 메모리도, 연산량도 폭발적으로 늘어나기 때문에 그동안 1M 컨텍스트는 마케팅 숫자에 가까웠습니다.
V4의 핵심 아키텍처 혁신은 압축 희소 어텐션(CSA)과 강압축 어텐션(HCA)을 트랜스포머 레이어 전체에 교차 배치하는 하이브리드 메커니즘입니다.
(최대 1M)
(세밀한 압축 + 희소 선택)
(강한 압축 + 전역 맥락)
두 종류의 어텐션을 레이어마다 번갈아 배치하여 정밀함과 효율성을 동시에 확보
CSA는 KV 캐시를 4분의 1 크기(원본의 25%)로 압축한 뒤, 압축된 항목 중에서 쿼리에 따라 상위 1024개만 선택해 어텐션을 수행합니다. 쉽게 말해, 책 전체를 다 읽지 않고 중요한 챕터만 골라서 정밀하게 읽는 방식입니다. 라이트닝 인덱서(Lightning Indexer)라는 별도 모듈이 어떤 부분을 봐야 할지 빠르게 점수화해줍니다.
HCA는 더 공격적입니다. 더 많은 토큰을 하나로 묶어 압축하기 때문에 메모리 절감 효과가 훨씬 큽니다. 대신 디테일은 일부 잃습니다. 그래서 CSA로 정밀함을 챙기고 HCA로 전역 맥락을 챙기는 분업 구조를 만든 것입니다.
100만 토큰 환경에서 V4-Pro는 V3.2 대비 단일 토큰 추론에 27%의 FLOPs와 10%의 KV 캐시만 사용합니다. 이 숫자가 의미하는 바는 단순합니다. 같은 GPU 한 장에 10배의 컨텍스트를 담을 수 있다는 것입니다. 1M 컨텍스트가 비싼 옵션이 아니라 기본 옵션이 될 수 있는 첫 번째 모델이 등장한 셈입니다.
1.6조 파라미터 모델을 안정적으로 학습시키는 것은 또 다른 차원의 문제입니다. 신호가 깊은 레이어를 통과하면서 발산하거나 소실되는 현상이 빈번하게 발생합니다.
이 부분이 이번 V4 출시에서 가장 충격적인 대목입니다. V4-Pro는 LiveCodeBench 93.5점으로 1위를 차지했으며, Gemini 3.1-Pro(91.7)와 Claude Opus 4.6(88.8)을 모두 앞섰습니다. Codeforces 레이팅은 3,206점으로 GPT-5.4(3,168)와 Gemini 3.1-Pro(3,052)를 능가했습니다.
| 벤치마크 | V4-Pro-Max | GPT-5.4 | Claude Opus 4.6 | Gemini 3.1-Pro |
|---|---|---|---|---|
| LiveCodeBench | 93.5 | — | 88.8 | 91.7 |
| Codeforces 레이팅 | 3,206 | 3,168 | — | 3,052 |
| SWE-bench Verified | 80.6% | — | 80.8% | — |
| Apex Shortlist Pass@1 | 90.2 | 78.1 | 85.9 | — |
| IMOAnswerBench (수학) | 89.8 | 91.4 | 75.3 | — |
| HMMT 2026 Feb (수학) | 95.2 | 97.7 | — | — |
코딩 핵심 능력에서 오픈소스 모델이 클로즈드 소스 플래그십을 종합적으로 압도한 것은 이번이 처음이며, 이는 2026년의 이정표라 할 만한 사건입니다.
다만 솔직하게 짚어둘 부분도 있습니다. 두 모델 모두 텍스트만 지원하며, 이미지·오디오·영상 이해 같은 멀티모달 기능은 빠져 있습니다. 또 일반 지식 테스트에서는 GPT-5.4와 Gemini 3.1 Pro에 약간 뒤처지며, DeepSeek 자체도 최첨단 모델 대비 약 3~6개월의 개발 격차가 남아 있다고 인정하고 있습니다.
DeepSeek가 또다시 시장을 흔드는 이유는 결국 가격입니다.
출력 가격 기준으로 V4-Pro는 Claude Opus 4.7($25)의 약 7분의 1, GPT-5.5($30)의 약 8.6분의 1입니다. 입력 토큰까지 합치면 실제 워크로드 기준 격차는 훨씬 더 벌어집니다. 코딩 에이전트나 RAG 파이프라인처럼 토큰 사용량이 많은 영역에서는 가격 차이가 곧바로 영업이익률 차이로 이어집니다.
이 부분은 기술 외적으로도 매우 중요한 신호입니다. DeepSeek R1이 엔비디아 GPU에서 학습된 것과 달리, V4는 전적으로 중국 국내 하드웨어에서 학습되었습니다. 구체적으로는 화웨이 어센드 950 칩과 캄브리콘 가속기를 사용했고, 화웨이의 슈퍼노드 기술이 인터커넥트를 담당했습니다.
미국의 대중국 반도체 수출 통제가 강화되는 가운데, 프론티어급 모델을 엔비디아 생태계 밖에서도 만들 수 있다는 사실이 실증된 첫 사례입니다. 베이징 현지에서 체감하는 분위기는 단순한 모델 출시 이상의 상징적 사건으로 받아들여지고 있습니다.
현지 분석가들의 평가는 엇갈립니다. 한쪽에서는 진정한 자립의 신호로 해석하고, 다른 쪽에서는 여전히 부분적인 엔비디아 의존이 남아 있다고 지적합니다. 다만 분명한 것은 1.6T 규모의 MoE 모델을 비-엔비디아 스택에서 안정적으로 학습시켰다는 사실 자체가 업계에 던지는 메시지입니다.
기존 deepseek-chat과 deepseek-reasoner 엔드포인트는 2026년 7월 24일 15:59 UTC 이후 완전 종료되며, 그 전에 deepseek-v4-pro 및 deepseek-v4-flash 모델 ID로 마이그레이션해야 합니다. API는 OpenAI ChatCompletions와 Anthropic API 두 형식을 모두 지원하므로 기존 코드 변경 부담은 적습니다.
가격 압박 때문에 기존 클로즈드 모델 계약을 재협상할 카드가 생겼습니다. 특히 코드 리뷰 자동화, 대용량 문서 분석, 에이전트 워크플로우처럼 토큰 사용량이 많은 시나리오에서는 V4 도입을 진지하게 검토할 가치가 있습니다.
여전히 데이터 주권과 검열 이슈는 남아 있습니다. 미국 일부 주, 호주, 대만, 한국, 덴마크, 이탈리아 등은 DeepSeek-R1 출시 직후 개인정보와 국가 안보를 이유로 사용 금지나 제한 조치를 도입한 바 있습니다. 민감 데이터를 다루는 환경에서는 셀프 호스팅이나 우회 경로를 함께 고려해야 합니다.
V4는 현재 프리뷰 버전입니다. API 가격이나 정책이 정식 출시 시점에 조정될 가능성이 있고, Jinja 형식 채팅 템플릿은 아직 포함되지 않았습니다. 또 텍스트만 지원하므로 멀티모달이 필요한 워크플로우는 다른 모델과 병행해야 합니다.
현지에서는 V4 출시가 단순히 "또 다른 모델 업데이트"로 받아들여지지 않고 있습니다. 중국 클라우드 업체들은 이미 V4-Pro와 V4-Flash 호스팅을 시작했고, ByteDance의 Doubao나 Alibaba의 Qwen 같은 자체 모델 진영도 즉각적인 대응을 준비하는 모습입니다.
특히 코딩 분야에서 오픈소스가 클로즈드 소스를 따라잡았다는 사실 자체가 SaaS 시장의 가격 구조를 바꿀 가능성이 큽니다. 그동안 GitHub Copilot, Cursor, Windsurf 같은 도구들이 OpenAI나 Anthropic API에 의존해 비싼 구독료를 정당화해왔다면, V4 등장 이후로는 자체 호스팅 모델로 동등한 품질을 훨씬 저렴하게 제공하는 신생 업체들이 빠르게 나타날 것으로 보입니다.
1. 효율이 곧 능력이다. 단순히 파라미터를 늘리는 시대는 끝났고, 어텐션과 메모리 효율을 누가 먼저 풀었는가가 진짜 승부처가 되었습니다. 100만 토큰 컨텍스트를 기본으로 만들 수 있다는 것은 에이전트 시대의 전제조건을 충족시켰다는 의미입니다.
2. 오픈소스가 일부 영역에서 클로즈드를 추월했다. 코딩이라는 가장 실용적인 영역에서 오픈 가중치 모델이 1위에 올랐다는 사실은 향후 1~2년간의 AI 경쟁 구도를 재편할 신호탄입니다.
3. 하드웨어 자립의 가능성이 실증되었다. 화웨이 칩으로 1.6T 모델을 학습한 사례는 미중 AI 패권 경쟁의 무게중심을 다시 한 번 흔들 변수입니다. 단기적으로 엔비디아의 우위는 유지되겠지만, 장기 그림은 분명히 바뀌었습니다.
다음 글에서는 DeepSeek V4를 직접 호출해보고 실제 성능을 한국어 코딩 시나리오에서 검증한 결과를 공유드릴 예정입니다. V4-Pro의 1M 컨텍스트가 정말 한국어 환경에서도 유효한지, 그리고 Claude Opus 4.7과 비교했을 때 실무 품질이 어디까지 따라왔는지 데이터로 보여드리겠습니다.
'AI' 카테고리의 다른 글
| OLAP vs OLTP 완벽 정복 (0) | 2026.05.13 |
|---|---|
| SPDK가 뭘까? 전격 해부 (0) | 2026.05.13 |
| 상하이 화장실 휴지부터 텐센트 손바닥 인증까지: 중국이 AI 강국이 될 수밖에 없는 진짜 이유 (0) | 2026.05.12 |
| 심천 한복판에서 무인택시를 타고 하늘을 나는 배달 드론을 봤습니다 - 중국 전기차 굴기, 흔들리는 독일, 그리고 차량용 반도체의 미래 (0) | 2026.05.12 |
| 신촹(信创), 중국이 그리는 IT 자주(自主)의 만년대계 (0) | 2026.05.12 |