넷플릭스가 보유한 영상 페타바이트, 카카오뱅크의 1초당 거래 로그, ChatGPT 학습용 토큰 수십조 개. 형태도 크기도 다른 이 데이터들이 어떻게 클라우드 위에 올라갈까. 답은 스토리지의 종류를 다르게 쓰기 때문이다. 클라우드 스토리지는 크게 블록(Block), 파일(File), 오브젝트(Object) 세 가지로 나뉘고, 이 셋을 소프트웨어로 통합·자동화하는 회사들이 바로 SDS(Software-Defined Storage) 기업이다. 오늘은 스토리지 3종의 차이부터 SDS 시장의 주요 기업과 향후 성장성까지 한 번에 정리한다.
AI 학습, 동영상 스트리밍, IoT 센서 로그, 백업·아카이빙. 데이터의 성격이 너무 달라지면서 "하나의 스토리지로 모든 걸 처리하던 시대"는 끝났다. 데이터베이스를 굴리는 워크로드와, 수십억 장의 사진을 보관하는 워크로드는 요구사항 자체가 다르다. 그래서 클라우드 사업자들은 용도별로 최적화된 스토리지를 따로 제공한다.
AWS, Google Cloud, Azure 같은 메이저 CSP의 스토리지 메뉴를 열어보면 EBS / EFS / S3 식으로 갈라져 있다. 이름은 다르지만 본질은 모두 블록·파일·오브젝트다. 이 세 가지의 차이를 모르고 클라우드 비용을 짜면, 백업 데이터를 비싼 블록 스토리지에 올려두는 식의 낭비가 생긴다.
데이터를 일정한 크기의 블록 단위로 잘라서 저장하고, 각 블록에 고유 주소를 부여한다. OS는 이 블록들을 하나의 디스크처럼 인식해서 직접 마운트한다. 지연시간이 가장 짧고 IOPS가 가장 높다.
- 관계형 DB(Oracle, MySQL, PostgreSQL) — 트랜잭션 처리
- 가상머신(VM) 부트 디스크, 컨테이너 영구 볼륨
- 실시간 분석, 캐시 레이어, 미디어 렌더링 등 저지연이 절대명제인 워크로드
AWS EBS, Azure Managed Disks, GCP Persistent Disk, iSCSI / Fibre Channel 기반 SAN
메타데이터 지원이 빈약하고, 단가가 비싸다. 대용량 비정형 데이터에는 부적합.
우리가 평소 PC에서 쓰는 폴더-파일 계층구조 그대로다. NFS(Linux), SMB/CIFS(Windows) 같은 표준 프로토콜로 여러 사용자가 동시에 접근할 수 있다.
- 팀 공유 드라이브, 기업 NAS
- 웹 콘텐츠 관리(WCM), 문서 협업
- 영상 편집·미디어 제작·EDA 같은 공유 파일 워크플로우
- HPC(고성능 컴퓨팅), 라이프 사이언스 데이터 분석
AWS EFS, Azure Files, GCP Filestore, NetApp ONTAP, Dell PowerScale
파일 수가 수억 개를 넘기면 메타데이터 병목이 생긴다. 페타바이트급으로 가면 관리가 어려워진다.
데이터를 '오브젝트' 단위로 저장한다. 각 오브젝트는 실제 데이터 + 풍부한 메타데이터 + 고유 ID 세 가지로 구성되며, 폴더 계층이 없는 플랫 네임스페이스를 쓴다. HTTP REST API(주로 S3 API)로 접근한다.
- 사진·동영상·음악 같은 비정형 데이터 대량 보관 (넷플릭스, 유튜브가 대표)
- 백업·아카이빙·재해복구(DR), 규제 준수용 장기 보관(WORM)
- AI/ML 학습 데이터셋, 빅데이터 분석
- IoT 센서·로그 데이터, 정적 웹 콘텐츠
AWS S3, Azure Blob Storage, GCP Cloud Storage, MinIO, Ceph(오픈소스)
오브젝트는 부분 수정이 안 되고 전체 다시 써야 한다. 트랜잭션 워크로드에는 부적합. 전통적으로 지연시간이 길다(최근엔 많이 개선됨).
| 구분 | 블록 스토리지 | 파일 스토리지 | 오브젝트 스토리지 |
|---|---|---|---|
| 저장 단위 | 고정 크기 블록 | 파일 + 폴더 계층 | 오브젝트 + 메타데이터 |
| 접근 방식 | iSCSI, FC (OS 직접 마운트) | NFS, SMB/CIFS | HTTP REST API (S3 등) |
| 지연시간 | 매우 낮음 (최고) | 중간 | 상대적 높음 (개선 중) |
| 확장성 | 제한적 | 중간 (수억 파일에서 한계) | 사실상 무제한 (EB급) |
| 메타데이터 | 거의 없음 | 기본만 | 매우 풍부 (커스텀 가능) |
| 비용 | 비쌈 | 중간 | 저렴 (티어별 더 저렴) |
| 적합 워크로드 | DB, VM, 트랜잭션 | 공유 파일, 협업 | 백업, 미디어, AI 학습 |
질문하신 부분이 핵심이다. SDS(Software-Defined Storage, 소프트웨어 정의 스토리지)는 정확히 이 영역을 다루는 회사들이 맞다. 한 단계 더 정확히 말하면, SDS는 스토리지 하드웨어와 소프트웨어를 분리해서, 표준 x86 서버 위에 소프트웨어만으로 블록·파일·오브젝트 스토리지를 구현하는 방식이다.
과거에는 EMC, NetApp 같은 회사가 전용 어플라이언스(스토리지 전용 박스)를 팔았다. 비싸고, 락인이 강했고, 확장도 어려웠다. SDS는 이 구조를 깬다. 일반 서버에 소프트웨어만 깔면 페타바이트급 스토리지 풀이 만들어진다. 핵심 가치는 셋이다.
- 하드웨어 종속 탈피. Dell, HP, Supermicro 등 어떤 표준 서버든 사용 가능. 비용이 크게 떨어진다.
- 스케일아웃 확장성. 노드 추가만으로 용량과 성능이 같이 올라간다. AI·빅데이터 시대에 필수.
- 자동화·AI 운영. 데이터 사용 패턴을 보고 자동으로 핫·콜드 티어를 나누고, 장애를 예측해서 셀프 힐링한다. 운영자가 줄어든다.
즉 SDS는 "클라우드 같은 유연함을 온프레미스나 하이브리드 환경에 그대로 가져오는 기술"이라고 보면 된다. 정부·금융처럼 데이터를 외부에 못 두는 산업에서 특히 핵심이고, AI 인프라 붐을 타고 폭발적으로 성장 중이다.
시장 조사기관마다 추정치 폭이 크지만(Mordor Intelligence는 2026년 24.27B → 2031년 75.03B로, CAGR 25.32%를 전망한 반면 Precedence Research는 2026년 80.55B → 2035년 684.35B, CAGR 26.94%를 예상한다), 공통점은 분명하다. 20%대 후반의 고성장이 최소 10년은 이어진다는 것. 이유는 단순하다 — AI·생성형 모델·자율주행·IoT가 만드는 비정형 데이터가 매년 폭증하고 있고, 전통 어플라이언스로는 감당이 안 된다.
아시아·태평양 지역이 가장 빠르게 성장할 것으로 보이는데, 한국·중국·인도의 데이터 주권 규제 강화와 정부 클라우드 확대가 직접적인 동력이다.
SDS 진영은 크게 전통 강자(EMC·NetApp 같은 어플라이언스 출신), 오픈소스 진영(Red Hat Ceph 등), 신흥 스타트업(VAST, Nutanix, Pure Storage 등)으로 나뉜다.
GPU 클러스터 한 대당 학습 데이터 처리량이 초당 수백 GB에 달한다. 전통 NAS로는 GPU가 굶주린다. 그래서 VAST Data, WEKA, DDN 같은 AI 특화 SDS가 폭발적으로 크고 있다. AI 기반 자동 티어링·예측 장애감지가 적용되면서 운영 효율이 크게 개선되는 흐름도 동시에 진행 중이다.
온프레미스만, 또는 퍼블릭 클라우드만 쓰는 시대는 끝났다. 데이터를 온프레미스·AWS·Azure·GCP에 자유롭게 배치하고 이동시키는 능력이 SDS의 핵심 가치가 된다. NetApp의 BlueXP, Dell의 APEX가 대표 사례.
쿠버네티스 위에서 영구 볼륨(PV)을 관리하는 컨테이너 네이티브 SDS가 빠르게 성장 중이다. Red Hat OpenShift Data Foundation, Portworx(Pure Storage), Longhorn 등이 이 영역을 주도한다.
유럽 GDPR, 한국 CSAP, 인도·중국의 데이터 현지화 규제. "데이터를 국경 밖으로 못 보낸다"는 규제가 강해질수록 SDS는 유리하다. 표준 서버 + 소프트웨어 조합으로 해당 국가에 맞춰 빠르게 배치할 수 있기 때문.
스토리지 3종(블록·파일·오브젝트)은 데이터의 성격에 따라 다르게 써야 하는 도구다. 블록은 속도, 파일은 공유, 오브젝트는 확장성. 클라우드 비용을 다루는 모든 사람이 외워야 할 기본기다.
그리고 이 셋을 표준 하드웨어 위에서 소프트웨어로 통합·자동화하는 것이 SDS다. AI 인프라 붐 + 데이터 폭증 + 멀티클라우드 + 데이터 주권 규제 — 4대 동력이 동시에 SDS 시장을 끌어올리고 있고, 향후 10년간 연 25% 이상 성장이 거의 확실시된다. Dell, NetApp, Fujitsu, IBM, HPE 같은 전통 강자와 VAST Data, Nutanix, Scality, DataCore, Lightbits 같은 신흥 스타트업이 같은 시장에서 부딪히는 중이다.
투자자 관점이든, 인프라 엔지니어 관점이든 — "데이터가 폭발하는 시대에 그 데이터를 담는 그릇을 만드는 회사들"이라는 점에서 SDS는 향후 10년 가장 흥미로운 인프라 카테고리 중 하나다.
'AI' 카테고리의 다른 글
| 쿠버네티스(Kubernetes) 쉽게 이해하기 — SW 레이어 어디에서 어떻게 작동하나 (0) | 2026.05.10 |
|---|---|
| IaaS PaaS SaaS 차이부터 FaaS XaaS까지 — 클라우드 서비스 모델 완벽 정리 (0) | 2026.05.10 |
| HBM이란 무엇인가: AI 인프라의 진짜 병목과 SK하이닉스 vs 삼성전자 10년 라이벌 드라마, 그리고 차세대 HBF까지 (0) | 2026.05.10 |
| DPU란 무엇인가 | NVIDIA BlueField‑4와 CMX(ICMS)로 보는 AI 인프라의 세 번째 축 (0) | 2026.05.10 |
| 2026년 AI의 진짜 승부처, 에이전틱 하니스(Agentic Harness)란 무엇인가 (0) | 2026.05.10 |