'TensorRTLLM' 태그의 글 목록

vLLM 완벽 해부 — LLM 추론 엔진의 표준이 된 진짜 이유

vLLM 완벽 해부 — LLM 추론 엔진의 표준이 된 진짜 이유PagedAttention부터 Continuous Batching까지, 그리고 TensorRT-LLM·SGLang·TGI 관련 도메인 총정리AI 인프라 LLM Serving PagedAttention 2026 최신GPU 한 장으로 더 많은 사용자를 받을 수 있다면? 추론 비용을 절반으로 줄일 수 있다면? 2023년 UC 버클리에서 시작된 vLLM은 단순히 "빠른 라이브러리" 수준이 아니라, 운영체제의 가상 메모리 개념을 LLM에 이식해 업계 표준이 된 추론 엔진이다. 이 글은 vLLM이 왜 만들어졌는지, 핵심 기술인 PagedAttention이 정확히 무엇을 해결하는지, 그리고 TensorRT-LLM·SGLang·TGI 같은 경쟁자들과 어떻게..

AI 2026.05.10

« 2026/05 »

일

월

화

수

목

금

토

일	월	화	수	목	금	토
					1	2
3	4	5	6	7	8	9
10	11	12	13	14	15	16
17	18	19	20	21	22	23
24	25	26	27	28	29	30
31

S전자 반도체 중국 기술주재원 Marvin Jung

TensorRTLLM 1

티스토리툴바