vLLM 완벽 해부 — LLM 추론 엔진의 표준이 된 진짜 이유PagedAttention부터 Continuous Batching까지, 그리고 TensorRT-LLM·SGLang·TGI 관련 도메인 총정리AI 인프라 LLM Serving PagedAttention 2026 최신GPU 한 장으로 더 많은 사용자를 받을 수 있다면? 추론 비용을 절반으로 줄일 수 있다면? 2023년 UC 버클리에서 시작된 vLLM은 단순히 "빠른 라이브러리" 수준이 아니라, 운영체제의 가상 메모리 개념을 LLM에 이식해 업계 표준이 된 추론 엔진이다. 이 글은 vLLM이 왜 만들어졌는지, 핵심 기술인 PagedAttention이 정확히 무엇을 해결하는지, 그리고 TensorRT-LLM·SGLang·TGI 같은 경쟁자들과 어떻게..