S전자 반도체 중국 기술주재원 Marvin Jung

  • 홈
  • 태그
  • 방명록

ContinuousBatching 1

vLLM 완벽 해부 — LLM 추론 엔진의 표준이 된 진짜 이유

vLLM 완벽 해부 — LLM 추론 엔진의 표준이 된 진짜 이유PagedAttention부터 Continuous Batching까지, 그리고 TensorRT-LLM·SGLang·TGI 관련 도메인 총정리AI 인프라 LLM Serving PagedAttention 2026 최신GPU 한 장으로 더 많은 사용자를 받을 수 있다면? 추론 비용을 절반으로 줄일 수 있다면? 2023년 UC 버클리에서 시작된 vLLM은 단순히 "빠른 라이브러리" 수준이 아니라, 운영체제의 가상 메모리 개념을 LLM에 이식해 업계 표준이 된 추론 엔진이다. 이 글은 vLLM이 왜 만들어졌는지, 핵심 기술인 PagedAttention이 정확히 무엇을 해결하는지, 그리고 TensorRT-LLM·SGLang·TGI 같은 경쟁자들과 어떻게..

AI 2026.05.10
이전
1
다음
더보기
프로필사진

S전자 반도체 중국 기술주재원 Marvin Jung

S전자 반도체 중국 기술주재원 Marvin Jung의 중국과 AI 기술이야기 블로그입니다.

  • 분류 전체보기 (99) N
    • AI (55) N
    • 중국 (43) N
    • 소개 및 공지 (1)

Tag

ai인프라, 중국어어휘, 중국어기초, HBM, 중국어문법, 중국생활, 인공지능, AI반도체, 중국어표현, 중국어공부, 중국어단어, 가능보어, LLM, 중국문화, hsk단어, 중국AI, 중국주재원, 중국어독학, 메모리반도체, 중국어회화,

최근글과 인기글

  • 최근글
  • 인기글

최근댓글

공지사항

페이스북 트위터 플러그인

  • Facebook
  • Twitter

Archives

Calendar

«   2026/05   »
일 월 화 수 목 금 토
1 2
3 4 5 6 7 8 9
10 11 12 13 14 15 16
17 18 19 20 21 22 23
24 25 26 27 28 29 30
31

방문자수Total

  • Today :
  • Yesterday :

Copyright © AXZ Corp. All rights reserved.

티스토리툴바