유튜브가 다음 영상을 알아맞히고, 틱톡이 30초 만에 우리 취향을 파악하는 비밀. 모든 빅테크가 수십조 원을 쏟아붓는 '추천 AI'의 진화를 한 번에 정리합니다.
ChatGPT 같은 LLM이 화제의 중심이지만, 실제 빅테크의 매출을 책임지는 AI는 따로 있습니다. 바로 추천 시스템(Recommender System)입니다. 메타의 AI 연산 자원 중 무려 60% 이상이 추천 모델인 DLRM에 쓰이며, 2024년 메타가 공개한 HSTU는 추천 분야의 'ChatGPT 모먼트'를 열었습니다.
요즘 AI 이야기를 하면 거의 모두가 ChatGPT, Claude, Gemini 같은 LLM(거대 언어 모델)을 떠올립니다. 그러나 우리가 매일 아침 눈을 뜨자마자 마주하는 AI는 사실 LLM이 아닙니다. 유튜브 첫 화면에 뜨는 영상, 인스타그램 릴스의 끝없는 스크롤, 쿠팡의 "이런 상품은 어떠세요?", 넷플릭스 메인의 작품 추천. 이 모든 것을 결정하는 AI가 바로 추천 시스템입니다.
업계에서는 우스갯소리로 "LLM은 화제를 만들고, 추천 시스템은 돈을 번다"라고 말하기도 합니다. 실제로 메타(Meta)의 AI 추론 사이클 중 60% 이상이 DLRM(Deep Learning Recommendation Model)에 쓰이고 있다는 사실은, 이 분야가 얼마나 거대한 규모인지를 단적으로 보여줍니다.
추천에서 시작됨
추천 알고리즘 결과
추천 모델에 사용
추천에서 발생
"수많은 콘텐츠 중에서, 지금 이 사람이 가장 좋아할 만한 것을 골라주는 AI"
추천 시스템의 본질은 "사용자(User)와 아이템(Item) 사이의 관계를 예측하는 것"입니다. 여기서 아이템은 영상, 음악, 상품, 뉴스, 친구 추천 등 무엇이든 될 수 있습니다.
추천 시스템은 마치 단골 카페의 사장님과 같습니다. 손님이 문을 열고 들어오는 순간 "오늘은 비 오니까 따뜻한 라떼 어떠세요?"라고 권하는 사장님처럼, AI는 사용자의 과거 행동, 현재 상황(시간·날씨·디바이스), 그리고 비슷한 취향을 가진 다른 사람들의 패턴을 종합해 가장 마음에 들 만한 것을 골라냅니다.
그런데 문제는 규모입니다. 유튜브에는 매분마다 500시간 분량의 영상이 새로 업로드되고, 틱톡은 수억 개의 짧은 영상을 보유하고 있습니다. 이 거대한 풀에서 0.1초 만에 "당신을 위한 영상"을 골라내야 하는 것이 현대 추천 시스템의 도전 과제입니다.
현대 추천 시스템은 거의 모두 2단계 파이프라인으로 동작합니다. 이 구조를 이해하면 이후의 모든 알고리즘이 쉽게 이해됩니다.
→ 정확한 점수 매겨 정렬
수억 개의 아이템 중에서 사용자가 좋아할 가능성이 있는 후보를 빠르게 수천 개로 줄이는 단계입니다. 속도가 생명이라, 가벼운 모델을 사용합니다. 대표 모델이 바로 뒤에서 설명할 Two-Tower 구조입니다.
좁혀진 후보들을 놓고, "이 사용자가 클릭할 확률은 정확히 몇 %인가?"를 정밀하게 계산하는 단계입니다. 무거운 모델을 써도 괜찮습니다. 메타의 DLRM이 이 영역의 대표 주자입니다.
GroupLens 프로젝트에서 시작된 추천의 시조. "비슷한 사람이 좋아한 것을 추천한다"
넷플릭스 프라이즈 대회를 통해 폭발적으로 발전한 잠재 요인 모델
기억(암기)과 일반화를 함께 잡은 딥러닝 추천의 시작점
산업계 표준이 된 딥러닝 추천 모델. MLPerf 벤치마크에 채택
사용자 행동을 '문장'처럼 본 트랜스포머 기반 추천
"행동은 언어보다 강하다" - 추천의 ChatGPT 모먼트
중국발 차세대 생성형 추천. 세션 단위로 영상 리스트를 통째로 생성
"당신과 취향이 비슷한 100명이 모두 본 영화라면, 당신도 좋아할 것이다." 이 단순한 직관에서 출발한 알고리즘입니다.
나와 영화 취향이 90% 일치하는 친구가 최근에 "기생충"을 보고 별 5개를 줬다면, 나도 그 영화를 좋아할 가능성이 매우 높겠죠. CF는 이런 "비슷한 사람 찾기"를 데이터로 자동화한 방식입니다. 1992년부터 지금까지도 추천 시스템의 가장 기본 원리로 작동하고 있습니다.
다만 CF에는 치명적인 약점이 있습니다. 신규 사용자나 신규 아이템에 대한 정보가 없으면 추천을 못 한다는 '콜드 스타트(Cold Start) 문제'입니다. 이를 해결하기 위해 등장한 것이 다음의 딥러닝 기반 모델들입니다.
"광고와 피드 추천의 사실상 글로벌 표준"
메타가 2019년 3월 31일 오픈소스로 공개한 DLRM은 곧바로 산업계의 표준이 되었습니다. MLPerf 벤치마크의 공식 추천 모델로 채택되어, 전 세계 GPU·하드웨어 회사들이 이 모델로 성능을 측정하고 있을 정도입니다.
(나이, 시청 시간 / 영화 ID, 장르 ID)
"나이×장르" 같은 관계 학습
DLRM의 특별함은 "피처 간 상호작용을 명시적으로 계산"한다는 점입니다. 예를 들어 "30대 남성 × 액션 영화 × 주말 저녁"이라는 조합이 클릭률에 어떤 영향을 주는지 학습합니다. 이 곱셈식 관계가 추천의 정확도를 끌어올린 핵심입니다.
DLRM의 가장 큰 골칫거리는 거대한 임베딩 테이블입니다. 영화 1억 개, 사용자 30억 명을 모두 벡터로 저장하다 보니 메모리만 수 TB가 필요합니다. 그래서 메타는 임베딩은 여러 GPU에 나누고(모델 병렬), 신경망 부분은 데이터를 나누는(데이터 병렬) 하이브리드 병렬화를 도입했습니다.
"유튜브, 아마존, 틱톡이 모두 사용하는 후보 생성의 표준"
이름 그대로 두 개의 탑(Tower)을 만드는 구조입니다. 한쪽은 사용자 정보, 다른 쪽은 아이템 정보를 처리해서 각각 벡터로 만든 뒤, 두 벡터의 거리(내적)를 계산해 유사도를 구합니다.
(나이·시청 이력)
[0.2, -0.5, ...]
(제목·장르·태그)
[0.3, -0.4, ...]
아이템 벡터(영상, 상품 등)는 미리 계산해서 벡터 DB에 저장해 둘 수 있습니다. 사용자가 접속하는 순간에는 사용자 탑만 한 번 돌리면 되죠. 그래서 수억 개 후보 중 0.001초 만에 수천 개를 골라낼 수 있습니다. 아마존, 유튜브, 틱톡, 핀터레스트 등 거의 모든 빅테크가 이 구조를 후보 생성 단계에서 사용합니다.
"사용자 행동을 '문장'처럼 보면 어떨까?"
여기서 게임 체인저가 등장합니다. ChatGPT가 텍스트를 단어 시퀀스로 보듯, 추천에서도 "사용자가 본 영상의 순서"를 단어 시퀀스처럼 보기 시작했습니다. 트랜스포머의 어텐션이 추천에 들어온 것입니다.
예를 들어 사용자가 [헬스 영상] → [단백질 보충제 리뷰] → [홈트 영상]을 연속으로 봤다면, 트랜스포머는 "이 사람은 지금 운동 모드"라는 맥락을 파악합니다. 1년 전에 본 요리 영상보다 지금의 행동 흐름에 가중치를 두는 것이죠.
유튜브 뮤직은 실제로 트랜스포머 기반 모델을 사용해 사용자의 최근 행동(재생, 스킵, 좋아요)을 분석하고, 헬스장에 있을 때와 잠들기 전의 음악 선호를 다르게 추천합니다. "맥락(컨텍스트)이 곧 추천이다"라는 사고방식의 시작점입니다.
"행동은 언어보다 강하다 (Actions Speak Louder than Words)"
2024년, 메타는 추천 분야를 뒤흔든 논문을 발표했습니다. 제목부터 도발적입니다 - "Actions Speak Louder than Words: Trillion-Parameter Sequential Transducers for Generative Recommendations". 직역하면 "행동은 언어보다 강하다 - 1조 파라미터 생성형 추천기".
그동안 추천 모델은 LLM과 달리 "모델을 키워도 성능이 비례해서 좋아지지 않는다"는 한계가 있었습니다. ChatGPT처럼 파라미터를 100배 늘리면 100배 똑똑해지는 '스케일링 법칙'이 추천에는 적용되지 않았던 것이죠.
HSTU는 이 한계를 깼습니다. 추천 문제 자체를 "다음 행동 생성하기"라는 생성형 문제로 재정의한 것입니다. 사용자의 모든 행동(클릭, 좋아요, 스킵, 시청 시간)을 하나의 시퀀스로 만들고, GPT가 다음 단어를 예측하듯 다음 행동을 예측합니다.
메타의 실제 운영 환경에서 HSTU는 기존 DLRM 대비 HR@100을 29.0%에서 36.9%로 끌어올리고, 온라인 A/B 테스트에서 사용자 인게이지먼트 +12.4% 개선이라는 압도적인 결과를 냈습니다. 추천 분야에서 '스케일링 법칙'을 처음으로 산업 규모에서 입증한 사례입니다.
2025년에는 중국 콰이쇼우(快手, Kuaishou)가 OneRec을 발표하며 HSTU를 한 단계 더 발전시켰습니다. OneRec은 영상을 하나씩 추천하는 게 아니라, "한 세션에 함께 볼 영상 리스트를 통째로 생성"합니다. 또한 DPO(Direct Preference Optimization)라는 LLM의 정렬 기법까지 도입해, 추천이 점점 LLM과 닮아가고 있다는 것을 보여줍니다.
| 회사 | 핵심 알고리즘 | 특징 |
|---|---|---|
| Meta (페이스북·인스타) |
DLRM → HSTU | 광고·피드 추천의 표준. 1조 파라미터 생성형 모델로 전환 중 |
| YouTube (구글) |
Two-Tower + Transformer | 후보 생성은 듀얼 인코더, 랭킹은 트랜스포머 기반 |
| TikTok (바이트댄스) |
Two-Tower + 시퀀셜 모델 | 영상을 단계적 '파도(wave)'로 노출시켜 바이럴 판별 |
| Netflix | 행렬 분해 + 딥러닝 | 썸네일까지 개인화. 멀티 태스크 러닝 활용 |
| Amazon | Two-Tower + 멀티태스크 랭커 | 클릭·장바구니·구매를 동시에 예측하는 다중 헤드 |
| Kuaishou (콰이쇼우) |
OneRec (생성형) | 세션 단위 리스트 생성 + DPO 정렬 |
| Spotify | BERT 임베딩 + 시퀀셜 | 오디오 콘텐츠 의미 임베딩으로 콜드 스타트 해결 |
LLM과 추천 시스템은 별개로 발전해 왔지만, 2024년부터 두 분야가 빠르게 융합되고 있습니다. 흥미로운 흐름 세 가지를 짚어드리겠습니다.
예전에는 "이 영화를 추천합니다"로 끝났다면, 지금은 "감독님이 좋아하시는 봉준호 스타일의 사회 풍자 + 주말 저녁에 잘 어울리는 분위기 때문에 이 영화를 추천드립니다"처럼 추천 이유까지 LLM이 자연어로 생성합니다.
전통적인 추천은 영화 ID가 그저 movie_82731 같은 숫자였습니다. 최근에는 LLM의 임베딩 능력을 빌려 영화 내용·장르·분위기를 압축한 Semantic ID를 부여합니다. 같은 ID 체계 안에서 "비슷한 영화"가 자동으로 가까워지는 것이죠.
HSTU와 OneRec이 보여준 흐름은 명확합니다. 추천 시스템이 "점수 매기기(Ranking)"에서 "다음 행동 생성하기(Generation)"로 패러다임이 바뀌고 있습니다. 향후 5년 안에 대부분의 빅테크가 생성형 추천으로 전환할 것이라는 게 업계 컨센서스입니다.
ChatGPT가 화려한 무대 위 주연이라면, 추천 시스템은 무대 뒤에서 모든 것을 움직이는 연출가입니다. 우리가 매일 30분 이상 사용하는 모든 앱의 화면 구성, 노출 순서, 광고 매칭이 이 AI의 결정 결과입니다.
1992년의 협업 필터링에서 시작해 2019년 DLRM, 그리고 2024년 HSTU에 이르기까지, 추천 시스템은 묵묵히 진화해 왔습니다. 그리고 이제 LLM과 만나면서 새로운 변곡점을 맞이하고 있습니다. AI 시대를 이해하려면 LLM만큼이나 추천 시스템을 알아야 한다고 말씀드리고 싶습니다.
다음 글에서는 틱톡(Douyin)이 어떻게 30초 만에 사용자 취향을 파악하는지, 그 알고리즘의 비밀을 더 깊이 파고들어 보겠습니다.
'AI' 카테고리의 다른 글
| AI 시대, 애플은 도대체 뭘 하고 있는가 (0) | 2026.05.14 |
|---|---|
| AI 시대, 소형원자로(SMR)가 답이 될 수 있을까? 글로벌 빅테크가 원자력에 베팅하는 진짜 이유 (0) | 2026.05.14 |
| AI 서버 아키텍처를 움직이는글로벌 행사 12선, 티어별 랭킹 (0) | 2026.05.14 |
| 엔비디아 Nemotron 3 Nano Omni 완전 정복: 30B-A3B MoE로 9배 빠른 멀티모달 AI 에이전트의 시대 (0) | 2026.05.14 |
| 클라우드 데이터베이스 완전 정복: AI in DB 시대의 개막과 글로벌 CSP 비교 (0) | 2026.05.13 |