AI

DeepSeek 3FS 전격 해부: POSIX와 무엇이 다른가? AI 시대 분산 파일시스템 총정리

marvin-jung 2026. 5. 13. 22:38
★ AI INFRA 시리즈 #01
DeepSeek 3FS 전격 해부: POSIX와 무엇이 다른가? AI 시대 분산 파일시스템 총정리

Fire-Flyer File System(3FS)의 아키텍처부터 Lustre, GPFS, WekaFS, DAOS까지 — AI 학습·추론을 책임지는 차세대 스토리지의 모든 것

TL;DR

3FS(Fire-Flyer File System)는 DeepSeek이 2025년 2월 오픈소스로 공개한 AI 전용 분산 파일시스템입니다. NVMe SSD와 RDMA 네트워크를 적극 활용해 180노드 클러스터에서 6.6 TiB/s의 읽기 처리량을 달성했으며, KVCache 환경에서는 최대 40 GiB/s의 피크 처리량을 보여줬습니다. 전통적인 POSIX 의미론(semantics)을 일부 포기하는 대신, AI 워크로드의 핵심인 대용량 순차 읽기와 메타데이터 처리량을 극대화한 것이 특징입니다.

안녕하세요, 마빈정입니다. 베이징 주재 근무 중에 중국 AI 생태계의 변화를 가까이서 지켜보고 있는데요, 그중에서도 DeepSeek의 행보가 가장 흥미롭습니다. 모델뿐만 아니라 학습 인프라까지 통째로 오픈소스화하고 있기 때문입니다.

오늘은 그중에서도 가장 묵직한 한 방, 3FS(Fire-Flyer File System)를 다뤄보겠습니다. 이 글 한 편으로 다음 세 가지를 모두 이해하실 수 있습니다.

이 글에서 다루는 것
1
파일시스템과 POSIX의 기초, 그리고 AI 시대에 왜 부족한가
2
DeepSeek 3FS의 4대 컴포넌트와 핵심 기술(CRAQ, FoundationDB, RDMA)
3
Lustre, GPFS, BeeGFS, WekaFS, DAOS, JuiceFS, 3FS 7대 파일시스템 전수 비교
1. 기초 다지기 — 파일시스템과 POSIX란 무엇인가

본격적인 이야기에 앞서, 가장 기초적인 개념부터 짚고 넘어가겠습니다. 파일시스템(File System)은 운영체제가 저장장치 위에 데이터를 어떻게 배치하고, 어떻게 찾아오게 할지를 정의하는 규칙의 묶음입니다. 우리가 평소에 사용하는 ext4, NTFS, APFS가 모두 파일시스템입니다.

그런데 파일시스템마다 동작 방식이 제각각이라면, 응용 프로그램은 모든 파일시스템 종류를 따로 지원해야 합니다. 이 문제를 해결하기 위해 표준이 만들어졌는데, 그것이 바로 POSIX(Portable Operating System Interface)입니다.

📌 POSIX 한 줄 요약

POSIX는 1988년 IEEE가 제정한 운영체제 호환성 표준입니다. open(), read(), write(), close() 같은 시스템 콜의 동작 방식을 정의해, 같은 코드가 여러 OS에서 동일하게 동작하도록 보장합니다.

POSIX의 핵심 약속, "Strong Consistency"

POSIX가 정의하는 가장 강력한 약속 중 하나는 강한 일관성(Strong Consistency)입니다. 어떤 프로세스가 파일에 무언가를 썼다면, 그 직후 다른 프로세스가 같은 파일을 읽을 때 반드시 새로 쓴 내용이 보여야 한다는 규칙입니다.

단일 노드 환경이라면 이 규칙은 지키기 쉽습니다. 하지만 대규모 분산 시스템에서는 사정이 달라집니다. 데이터가 여러 노드에 복제되어 있을 때, 모든 노드의 상태를 항상 동기화시키는 비용이 폭증하기 때문입니다. Lustre, GPFS, BeeGFS 같은 대표적인 병렬 파일시스템(PFS)들은 모두 POSIX 일관성을 지원하지만, HPC 시스템 규모가 커지고 SSD가 일반화되면서 POSIX 일관성을 유지하는 비용이 점점 받아들이기 어려운 수준이 되고 있습니다.

2. AI 시대에 POSIX가 부족한 이유

AI 학습 워크로드는 전통적인 OLTP(온라인 트랜잭션)나 일반 HPC와는 다른 특성을 가집니다. 이 차이를 이해해야 왜 새로운 파일시스템이 필요한지 보입니다.

AI 워크로드의 4가지 특성
📚
대규모 순차 읽기
학습 데이터셋 수십~수백 TB를 반복 스캔
🔥
수천 개 동시 클라이언트
GPU 노드들이 동일 파일을 병렬 접근
랜덤 KV 캐시
LLM 추론 시 작은 블록의 비순차 읽기
💾
대량의 작은 파일
체크포인트, 토크나이저, 메타데이터

이런 워크로드 앞에서 POSIX 의미론은 두 가지 큰 부담을 만듭니다. 첫째, 메타데이터 병목입니다. 수천 개의 GPU 워커가 동시에 파일을 열고 닫으면, POSIX의 엄격한 디렉터리 락(directory lock)과 atime 갱신이 메타데이터 서버를 마비시킵니다.

둘째, 쓰기 일관성 비용입니다. 모든 쓰기 직후 모든 읽기가 최신값을 봐야 한다는 규칙은, RDMA로 마이크로초 단위까지 줄여놓은 네트워크 지연을 다시 늘립니다. 그런데 AI 학습 데이터셋은 대부분 읽기 전용(read-only)입니다. 데이터를 미리 한 번 써두고 수십 epoch 동안 읽기만 합니다. 이 경우 POSIX 수준의 강한 쓰기 일관성은 과잉 사양인 셈입니다.

⚠ 문제의 본질

POSIX는 "범용성"을 위해 설계된 표준입니다. 그러나 AI 학습은 "범용 워크로드"가 아닙니다. 읽기 비중이 압도적이고, 패턴이 예측 가능하며, 동시성 규모가 극단적입니다. 범용 표준의 안전망이 오히려 발목을 잡는 구간이 발생합니다.

3. DeepSeek 3FS — Fire-Flyer File System의 등장

2025년 2월 28일, DeepSeek은 3FS(Fire-Flyer File System)를 GitHub에 오픈소스로 공개했습니다. 3FS는 FUSE 기반의 리눅스 파일시스템으로, 현대 SSD와 RDMA 네트워크를 활용해 AI 학습·추론 성능을 끌어올리는 것을 목표로 합니다. 언어 구성은 C++ 87%, Rust 4.3%, Python 2.1%로, 성능과 안정성을 모두 챙기는 조합입니다.

"3FS는 thousands of SSDs의 처리량과 hundreds of storage nodes의 네트워크 대역폭을 결합해, 응용프로그램이 데이터의 물리적 위치에 구애받지 않고 스토리지에 접근할 수 있게 합니다."

— DeepSeek 3FS 공식 README 요약

3FS 개발 배경 타임라인
2019년
DeepSeek 모회사 High-Flyer가 자체 AI HPC 클러스터 'Fire-Flyer 1' 구축 시작
2022년
'Fire-Flyer 2' 클러스터 가동 — 1만 장 규모 GPU와 자체 파일시스템 운영
2024년 8월
arXiv에 'Fire-Flyer AI-HPC' 논문 발표 — 3FS, HFReduce, HaiScale 등 공개
2025년 2월
3FS GitHub 오픈소스 공개 — DeepSeek-V3·R1 학습에 사용된 인프라 전격 개방
4. 3FS 아키텍처 — 4대 컴포넌트 해부

3FS는 분리형(disaggregated) 아키텍처를 채택해, 역할이 명확한 4개의 서비스로 구성됩니다. 모든 컴포넌트는 RDMA 네트워크로 통신합니다.

3FS 4계층 아키텍처
C
Client (FUSE / Native)
FUSE 클라이언트는 POSIX 호환 인터페이스 제공 / 성능이 중요하면 Native API 직접 호출
▼ RDMA
M
Metadata Service (Stateless)
파일 open/create 등 메타 연산 처리. FoundationDB에 KV로 저장 → 무상태 → 무한 확장
▼ RDMA
S
Storage Service (NVMe + CRAQ)
로컬 NVMe SSD 관리, 파일을 동일 크기 청크로 분할해 CRAQ 체인으로 복제
▲ Heartbeat
!
Cluster Manager (ZooKeeper/etcd)
노드 멤버십 관리, 장애 감지, 설정 배포. 다중 인스턴스로 SPOF 제거
4-1. Cluster Manager — 컨트롤 플레인의 두뇌

클러스터 매니저는 멤버십 변경과 설정을 관리합니다. 가용성을 위해 다중 매니저를 배포하며, 그중 하나가 ZooKeeper나 etcd 같은 분산 코디네이션 서비스를 통해 프라이머리로 선출됩니다. 메타데이터 서비스와 스토리지 서비스로부터 하트비트를 받아 장애를 감지하고, 변경된 클러스터 설정을 모든 컴포넌트에 배포합니다.

4-2. Metadata Service — 무상태(Stateless) 메타데이터

전통적인 분산 파일시스템에서 메타데이터 서버는 가장 큰 단일 병목이었습니다. 3FS는 이 문제를 영리하게 풀었습니다. 메타데이터 서비스는 무상태이며, 파일 메타데이터는 트랜잭셔널 KV 스토어인 FoundationDB에 저장됩니다. 따라서 클라이언트는 어떤 메타데이터 서비스에든 접속할 수 있습니다.

💡 왜 FoundationDB를 골랐을까

FoundationDB는 Apple이 개발해 오픈소스화한 분산 ACID KV 스토어입니다. 키 글로벌 정렬과 일관 해싱 기반 자동 분산을 제공해, 디렉터리 리스팅 같은 메타데이터 패턴을 효율적으로 처리할 수 있습니다. 3FS는 DENT 프리픽스와 부모 inode 번호, 파일명을 결합해 dentry 키를 구성합니다.

4-3. Storage Service — CRAQ가 뭐길래

3FS의 가장 흥미로운 결정은 데이터 일관성을 보장하는 방법입니다. 바로 CRAQ(Chain Replication with Apportioned Queries)를 채택한 것이죠.

CRAQ는 읽기 중심 워크로드에 최적화된 write-all-read-any 복제 프로토콜입니다. 모든 복제본의 읽기 대역폭을 활용하는 것은 올플래시 스토리지에서 최고의 읽기 처리량을 달성하기 위한 핵심입니다. 동작 방식은 다음과 같습니다.

# CRAQ 쓰기 흐름 (Write Path) 1. Client → Head 노드로 쓰기 요청 전송 2. Head → Middle → Tail 순으로 순차 전파 3. Tail이 커밋하면 → 역방향으로 ACK 전파 4. Head가 최종 ACK를 Client에 반환 # CRAQ 읽기 흐름 (Read Path) 1. Client → 아무 노드에나 읽기 요청 2. 해당 노드: 'clean' 상태면 즉시 반환 3. 'dirty' 상태면 → Tail에 최신 버전 확인 후 반환

이 구조의 묘미는 읽기는 모든 복제본이 분산 처리하고, 쓰기 일관성은 체인의 꼬리(Tail)에서 단일 진실 공급원으로 보장한다는 점입니다. AI 학습처럼 read-heavy한 워크로드에 최적화된 선택입니다.

4-4. Client — FUSE와 Native의 두 얼굴

3FS는 두 종류의 클라이언트를 제공합니다. 대부분의 응용은 FUSE 클라이언트를 사용하는데, 채택 장벽이 낮기 때문입니다. 성능이 중요한 응용은 native client를 사용해 직접 통합합니다. Native 클라이언트는 USRBIO API를 사용해 RDMA를 직접 활용하므로, FUSE 오버헤드 없이 최대 성능을 끌어낼 수 있습니다.

5. 성능 벤치마크 — 숫자로 보는 3FS

DeepSeek이 공개한 공식 벤치마크 수치를 보겠습니다. 이론적 최대치가 아닌 실제 운영 클러스터에서 측정한 값입니다.

6.6 TiB/s
집계 읽기 처리량
180노드 / 500+ 클라이언트
40 GiB/s
KVCache 피크
LLM 추론 랜덤 읽기
3.66 TiB/min
GraySort 정렬
110.5 TiB / 30분 14초
200~400 Gbps
노드당 NIC 대역폭
InfiniBand 듀얼 포트
📊 테스트 클러스터 사양

읽기 스트레스 테스트 클러스터는 180개 스토리지 노드(노드당 2×200Gbps InfiniBand NIC, 16×14TiB NVMe SSD)와 500여 클라이언트 노드(노드당 1×200Gbps InfiniBand NIC)로 구성되었으며, 학습 작업의 백그라운드 트래픽이 있는 상태에서 약 6.6 TiB/s의 집계 읽기 처리량을 기록했습니다. GraySort 테스트에서는 25개 스토리지 노드와 50개 컴퓨트 노드 환경에서 110.5 TiB의 데이터를 8,192개 파티션에 걸쳐 30분 14초 만에 정렬했습니다.

6. POSIX vs 3FS — 무엇을 버리고 무엇을 얻었나

이제 본 주제로 돌아갑니다. 3FS는 POSIX와 정확히 어디가 같고 어디가 다를까요?

항목 POSIX 표준 DeepSeek 3FS
설계 목표 범용 OS 호환성 AI 학습/추론 처리량 극대화
파일 인터페이스 표준 정의 FUSE로 호환 제공
일관성 모델 Strong (모든 쓰기 즉시 가시화) CRAQ 기반 Strong (체인 종단 보장)
메타데이터 OS·FS별 상이 FoundationDB KV 스토어 (무상태)
분산 의식 없음 (단일 노드 전제) 분리형 아키텍처
RDMA 네이티브 없음 전 컴포넌트 RDMA
쓰기 지연 로컬: 매우 낮음 체인 전파로 다소 높음 (트레이드오프)
읽기 처리량 로컬 SSD 한계 전 노드 합산 (TiB/s급)
파일 락(advisory lock) 완전 지원 제한적
하드 링크/심볼릭 링크 지원 제한적

요약하면 3FS는 POSIX의 "겉모습"은 유지하되, 내부 구현에서 분산 환경에 맞지 않는 부분은 과감히 다른 방식으로 구현했습니다. FUSE 클라이언트로 표준 인터페이스를 노출해 응용프로그램은 그대로 사용할 수 있게 하면서도, 백엔드는 RDMA·CRAQ·KV 스토어 조합으로 완전히 새로 짠 셈입니다.

7. AI 파일시스템 총망라 — 7대 시스템 전수 조사

3FS만 보면 그림의 일부만 보는 것입니다. 현재 AI 인프라 시장에서 활발히 사용되는 주요 파일시스템 7종을 비교해보겠습니다.

Lustre
HPC 표준 · 오픈소스 · DDN 주도
개발
2003년 첫 릴리즈, 현재 DDN이 상용화 주도
아키텍처
MDS(메타) + OSS(오브젝트) + OST(타깃) 분리, 데이터 스트라이핑
네트워크
LNet, InfiniBand·RoCE 지원, RDMA 네이티브
사용처
전 세계 슈퍼컴퓨터 70% 이상, NVIDIA DGX SuperPOD 기본 채택
✓ 검증된 안정성, 거대 파일 처리에 강력. IO500 상위권 점유.
✗ 메타데이터 서버(MDS)가 병목, 작은 파일·고동시성에 약함.
IBM Spectrum Scale (GPFS)
엔터프라이즈 PFS · 상용
개발
IBM, 1998년 — General Parallel File System
아키텍처
분산 락 매니저 기반 대칭형 클러스터, AFM(Active File Management)으로 글로벌 캐시
네트워크
InfiniBand, Ethernet, RDMA 지원
사용처
금융권, 미국 국립연구소, Summit·Sierra 슈퍼컴퓨터
✓ 통합 관리 도구가 우수, 풍부한 정책 기반 데이터 관리(ILM).
✗ 라이선스 비용 부담, 신규 프로젝트의 진입 장벽이 높음.
BeeGFS
병렬 PFS · 오픈소스 + 상용 라이선스
개발
독일 Fraunhofer 연구소, 2005년 시작 (구 FhGFS)
아키텍처
데이터·메타데이터 분리, 사용자 공간 데몬 기반의 간편한 설치
네트워크
RDMA(IB/RoCE), TCP/IP 동시 지원
사용처
유럽 HPC, 중·소규모 AI 클러스터, NVIDIA Selene 일부 노드
✓ 설치·운영이 쉽고 학습 곡선이 낮음, 가성비 우수.
✗ AI/ML 워크로드처럼 4KB 이하 작은 파일이 많고 메타데이터 부담이 큰 시나리오에서는 메타데이터 서버가 종종 병목이 되어, 병렬 파일시스템의 설계상 이점을 충분히 누리기 어렵습니다.
WekaFS (Weka Data Platform)
상용 분산 PFS · NVMe-only 네이티브
개발
미국 Weka.io, 2013년 설립
아키텍처
분산 메타데이터(Hash 기반), 사용자 공간 SR-IOV로 커널 우회
네트워크
DPDK·RDMA 활용, 100~400Gbps 네트워크 최적화
사용처
대형 LLM 학습 인프라, 자율주행 데이터 레이크, 금융 퀀트
✓ IO500 최상위권 단골, 메타데이터 IOPS와 작은 파일 성능이 압도적.
✗ 전 노드 NVMe 필수로 초기 투자비가 크고, 라이선스 모델이 폐쇄적.
Intel DAOS (Distributed Asynchronous Object Storage)
차세대 객체 스토리지 · 오픈소스
개발
Intel, Optane PM(영구메모리) 시대를 겨냥해 설계
아키텍처
완전 사용자 공간, 객체 기반 KV 스토어, POSIX는 별도 레이어로 제공
네트워크
libfabric/OFI, RDMA 네이티브, NVMe over Fabrics
사용처
미 에너지부 Aurora 슈퍼컴퓨터, 일부 AI HPC 사이트
✓ IO500 벤치마크에서 WekaIO와 1·2위를 다투는 최고 수준의 성능, 차세대 메모리 친화적.
✗ Optane 단종 이후 로드맵 불확실성, 학습 곡선이 가파름.
JuiceFS
클라우드 네이티브 PFS · 오픈소스 + 엔터프라이즈
개발
중국 Juicedata, 2017년 시작
아키텍처
메타(Redis/TiKV/MySQL/FoundationDB) + 데이터(S3/OSS/COS 등 객체 스토리지)
네트워크
표준 TCP, S3 호환 백엔드 어디서나 동작
사용처
AWS·Aliyun 등 클라우드 AI 학습, 자율주행 데이터, 생성형 AI 파이프라인
✓ 객체 스토리지를 백엔드로 쓰는 가장 우아한 방법, 비용 효율 탁월.
✗ 객체 스토리지 지연으로 초고대역폭 학습엔 부적합, 캐시 튜닝 필수.
DeepSeek 3FS (Fire-Flyer)
AI 전용 · 오픈소스 · 2025년 신상
개발
DeepSeek/High-Flyer, 2025년 2월 오픈소스 공개
아키텍처
분리형 4계층, FoundationDB 메타, CRAQ 복제, NVMe + RDMA
네트워크
전 컴포넌트 RDMA, InfiniBand 기반
사용처
DeepSeek-V3·R1 학습/추론, KVCache 가속
✓ 오픈소스이면서 최신 AI 워크로드 패턴(KVCache, 대규모 read fan-out)에 최적화.
✗ 등장한 지 얼마 안 돼 운영 노하우·생태계 미성숙, 작은 파일·POSIX 락 등 제약.
7대 시스템 종합 비교표
시스템 오픈소스 RDMA 주 용도 강점
Lustre Yes Yes HPC·대형 학습 대용량 처리량
GPFS No Yes 엔터프라이즈 관리·정책
BeeGFS 부분 Yes 중소 HPC 설치 용이성
WekaFS No Yes 대형 AI 메타 IOPS
DAOS Yes Yes 차세대 HPC 최저 지연
JuiceFS 부분 No 클라우드 비용 효율
3FS Yes Yes LLM 학습/추론 KVCache 최적화
8. 어떻게 선택할 것인가 — 시나리오별 가이드
상황별 추천
A
국가 단위 슈퍼컴퓨터 / 1만 GPU 이상 → Lustre (검증된 안정성) 또는 DAOS (최신 성능)
B
상용 LLM 학습 / 제로 다운타임 → WekaFS, GPFS (예산 충분 시), 또는 Lustre
C
오픈소스로 자체 LLM 학습 인프라 → 3FS (최신·전용 설계) 또는 Lustre
D
클라우드 기반 + 비용 최우선 → JuiceFS (객체 스토리지 활용)
E
중소 규모 학습 클러스터(노드 수십 대) → BeeGFS (설치·운영 부담 최소)
9. 마치며 — POSIX의 끝이 아니라 진화

이 글에서 다룬 7개 파일시스템은 모두 POSIX의 아이디어에서 출발해, 각자의 워크로드에 맞춰 표준의 일부를 다시 짠 결과물입니다. 3FS도 마찬가지입니다. POSIX를 부정하는 것이 아니라, FUSE로 호환을 유지하면서 AI 시대의 요구를 받아들인 절충안입니다.

특히 흥미로운 점은 중국발 오픈소스의 약진입니다. JuiceFS와 3FS는 모두 중국에서 만들어졌고, 둘 다 활발한 글로벌 사용자 베이스를 확보하고 있습니다. AI 인프라 분야에서 미·중·EU의 기술 분포가 빠르게 재편되고 있다는 신호이기도 합니다.

"파일시스템은 더 이상 OS의 부속품이 아니라, AI 학습의 1차 변수가 되었습니다. GPU가 아무리 빨라도 파일시스템이 굼뜨면 모델은 굶주립니다."

— AI Infra Series 결론

다음 글에서는 3FS의 KVCache 메커니즘을 LLM 추론 관점에서 더 깊이 파헤쳐보겠습니다. 또한 NVMe-oF, GPUDirect Storage(GDS) 같은 인접 기술들도 시리즈로 다룰 예정입니다.

읽어주셔서 감사합니다. 질문이나 추가로 다뤘으면 하는 주제가 있다면 댓글로 남겨주세요.

SEARCH TAGS
#DeepSeek3FS #FireFlyerFileSystem #AI파일시스템 #POSIX비교 #분산파일시스템 #Lustre #WekaFS #DAOS #JuiceFS #LLM인프라