AI

ChatGPT, Claude, Gemini가 전부 같은 기술을 쓰는 이유 - 트랜스포머 쉽게 설명

marvin-jung 2026. 4. 14. 18:55
반응형
SMALL

 

트랜스포머(Transformer)란 무엇인가요?

트랜스포머는 2017년 구글의 연구팀이 발표한 AI 언어 모델의 핵심 구조입니다. 쉽게 말해, AI가 글을 읽고 이해하는 방식을 완전히 바꿔놓은 기술입니다.

트랜스포머가 등장하기 전까지 AI는 사람의 언어를 제대로 이해하는 데 한계가 있었습니다. 그런데 트랜스포머가 나온 이후, AI는 긴 문장도 문맥도 뉘앙스도 이해할 수 있게 됐습니다. 지금 우리가 쓰는 ChatGPT, Claude, Gemini가 모두 이 구조를 기반으로 만들어졌습니다.

그렇다면 트랜스포머는 어떤 방식으로 언어를 이해하는 걸까요? 이를 이해하려면 트랜스포머 이전의 AI가 어떤 방식으로 작동했는지부터 살펴볼 필요가 있습니다.

트랜스포머 이전에는 어떻게 했을까요?

트랜스포머가 등장하기 전, AI는 문장을 왼쪽에서 오른쪽으로 한 단어씩 순서대로 읽었습니다. 이 방식을 RNN(순환 신경망)이라고 부릅니다.

예를 들어 이런 문장이 있다고 가정해 보겠습니다.

"나는 어제 서울 강남에 있는 작고 오래됐지만 유명한 그 식당에서 냉면을 먹었는데 정말 맛있었어."

사람은 이 문장을 읽으면 "맛있었어"가 "냉면"에 대한 이야기라는 것을 금방 압니다. 그런데 당시 AI는 단어를 하나씩 처리하면서 앞 내용을 조금씩 잊어버렸습니다. 문장이 길어질수록 앞에 나온 단어를 기억하는 것이 점점 어려워졌습니다.

RNN (이전 방식) 순서대로 한 단어씩 처리 나는 서울에서 냉면을 맛있었어 기억 100% 기억 70% 기억 40% 기억 10% ❌ "냉면을"과 "맛있었어"의 연결을 놓침 트랜스포머 (현재 방식) 전체를 한꺼번에 보고 관계 파악 나는 서울에서 냉면을 맛있었어 관련도 높음! ✅ 거리에 상관없이 관계를 정확히 파악

▲ RNN은 순서대로 읽으며 앞 내용을 잊지만, 트랜스포머는 전체를 한꺼번에 봅니다.

트랜스포머의 핵심 아이디어 — 한꺼번에 보기

2017년, 구글의 연구팀은 전혀 다른 방법을 제안했습니다.

"굳이 순서대로 읽을 필요가 있을까? 문장 전체를 한 번에 펼쳐놓고 보면 되지 않을까?"

이것이 트랜스포머의 출발점입니다. 트랜스포머는 문장을 받으면 모든 단어를 동시에 펼쳐놓은 뒤, 각각의 단어가 다른 단어들과 얼마나 관련이 있는지를 점수로 매깁니다. 이 과정을 어텐션(Attention) 이라고 부릅니다.

'어텐션'을 쉽게 이해하는 방법

국어 시험 지문을 공부할 때를 떠올려 보세요. 중요한 단어에 형광펜을 칠하듯, AI도 각 단어가 어떤 단어와 연결되는지를 스스로 계산합니다.

앞의 예문에서 "맛있었어"라는 단어가 다른 단어들과 얼마나 관련 있는지를 도식으로 표현하면 다음과 같습니다.

"맛있었어" 가 각 단어에 집중하는 정도 맛있었어 ← 이 단어가 냉면을 89% 식당에서 50% 서울에서 18% 나는 7% 어제 4%

▲ "맛있었어"는 "냉면을"과 가장 높은 관련도를 가집니다. 이런 계산이 문장 전체에서 동시에 일어납니다.

이런 계산이 단어 하나에만 일어나는 것이 아닙니다. 문장 안의 모든 단어 쌍에 대해 동시에 수행됩니다. 덕분에 문장이 아무리 길어도 중요한 연결 고리를 놓치지 않습니다.

여러 관점에서 동시에 파악한다 — 멀티 헤드 어텐션

트랜스포머는 어텐션을 한 번만 하지 않습니다. 문법적 관계, 의미적 관계, 지시 관계 등 다양한 관점에서 동시에 어텐션을 수행합니다. 이를 멀티 헤드 어텐션(Multi-Head Attention) 이라고 합니다.

마치 한 문장을 국어 선생님, 논리학자, 번역가가 동시에 각자의 눈으로 분석하는 것과 비슷합니다. 이 과정을 수십~수백 개의 층(Layer)으로 쌓아 반복하면서, AI는 단순한 단어 관계를 넘어 문맥, 뉘앙스, 추론까지 이해하게 됩니다.

그래서 지금 AI들은 전부 이 구조를 씁니다

2017년에 발표된 이 논문의 제목은 "Attention Is All You Need(어텐션만 있으면 충분하다)" 였습니다. 당시에는 다소 도발적인 제목이었지만, 결과적으로 그 말이 맞았습니다.

트랜스포머 (2017) Attention Is All You Need GPT-4o OpenAI Claude Anthropic Gemini Google Llama 3 Meta Grok xAI Mistral Mistral AI 이름도, 회사도, 특징도 달라도 — 핵심 구조는 하나

▲ 현존하는 대부분의 거대 언어 모델(LLM)은 트랜스포머 구조를 기반으로 합니다.

이름도 다르고, 회사도 제각각이지만 핵심 원리는 같습니다. 자동차 브랜드는 달라도 내연기관의 원리가 같은 것처럼요. 이 논문은 현재 학계에서 10만 회 이상 인용된, AI 역사상 가장 영향력 있는 논문 중 하나로 꼽힙니다.

그런데… 이 모든 게 결국 뭘 하는 걸까요?

여기까지 읽으셨다면 트랜스포머가 꽤 대단한 기술이라는 느낌이 오셨을 겁니다. 수십 개의 층, 수백 개의 어텐션 헤드, 수천억 개의 매개변수…

그런데 이 어마어마한 구조가 매 순간 하는 일은 딱 하나입니다.

"다음에 올 단어(토큰) 하나를 고르는 것."

그게 전부입니다.

처음 이 사실을 알았을 때 저도 잠깐 멍했습니다. ChatGPT가 유창하게 글을 쓰고, 코드를 짜고, 번역을 하고, 심지어 농담까지 하는데 그 내부에서 일어나는 일은 고작 "다음 단어가 뭘까?"를 반복하는 것이라니요.

예를 들어 "오늘 날씨가"라는 문장을 입력하면, AI는 이렇게 작동합니다.

"오늘 날씨가" 다음에 올 단어는? → "맑습니다" (75%) / "흐립니다" (18%) / "춥습니다" (7%)
→ "맑습니다" 선택

"오늘 날씨가 맑습니다" 다음에 올 단어는? → "." (60%) / "네요" (30%) / "그래서" (10%)
→ "." 선택

완성: "오늘 날씨가 맑습니다."

이 과정을 단어 하나씩, 수십~수백 번 반복하면 한 편의 글이 완성됩니다. 그 글이 논문 요약이든, 소설이든, 법률 검토든 — 방식은 똑같습니다. 다음 토큰 하나를 예측하는 것을 끝없이 반복하는 것뿐입니다.

수천억 개의 매개변수와 수조 원의 비용으로 만든 AI가, 결국엔 "다음에 올 단어 맞히기 게임"을 하고 있다는 것. 황당하지 않으신가요?

그런데 더 황당한 건, 그 단순한 반복이 실제로 작동한다는 사실입니다. 인간의 언어가 그만큼 패턴으로 가득 차 있다는 뜻이기도 하고, 트랜스포머가 그 패턴을 얼마나 정교하게 학습했는지를 보여주는 증거이기도 합니다.

한 줄 요약

트랜스포머는 "문장을 순서대로 읽는 대신, 전체를 한꺼번에 펼쳐놓고 단어들 사이의 관계를 동시에 계산하자"는 아이디어 하나로 AI 세계를 완전히 바꾸어 놓은 구조입니다. 그리고 지금 우리가 매일 사용하는 모든 AI 서비스는, 이 아이디어 위에 서 있습니다.

반응형
LIST