AI 입문: 머신러닝부터 GPT까지 한눈에 이해하기

요즘 ChatGPT, Claude 같은 AI 서비스를 쓰다 보면 "이게 어떻게 작동하는 거지?" 하는 궁금증이 생긴다. 근데 검색해보면 온통 어려운 수식과 용어들뿐이라 막막하다. 이 글에서는 AI의 전체 그림을 쉽게 풀어본다.

전체 구조부터 보자

먼저 큰 그림을 이해하면 나머지는 훨씬 쉬워진다.

인공지능 (AI)
   └── 머신러닝 (ML)
          └── 딥러닝 (DL)
                 └── Transformer
                        └── GPT

딥러닝은 머신러닝의 한 종류이고, Transformer는 딥러닝의 한 종류이며, GPT는 Transformer를 활용한 모델이다. 이제 하나씩 살펴보자.

머신러닝: 기계가 스스로 배운다

기존 프로그래밍은 사람이 규칙을 직접 알려주는 방식이다. "만약 빨간색이고 둥글면 사과야"라고 하나하나 코딩한다. 근데 이 방식은 한계가 있다. 세상의 모든 경우의 수를 다 코딩할 수 없으니까.

머신러닝은 접근법이 다르다. 규칙을 알려주는 대신, 예시를 보여주고 기계가 스스로 규칙을 찾게 한다.

기존 방식: 규칙 + 데이터 → 답
머신러닝:   데이터 + 답 → 규칙

사과 사진 1000장, 바나나 사진 1000장을 보여주면서 "이건 사과야, 이건 바나나야"라고 알려주면, 기계가 알아서 둘의 차이점을 찾아낸다. 이게 머신러닝의 핵심이다.

머신러닝은 크게 세 종류로 나뉜다.

지도학습 은 정답을 알려주고 학습시킨다. 위의 사과/바나나 예시가 이에 해당한다.

비지도학습 은 정답 없이 패턴만 찾는다. "비슷한 것끼리 그룹 지어봐"라고 하면 알아서 분류한다.

강화학습 은 시행착오로 배운다. 게임을 하면서 점수가 오르면 기억하고, 떨어지면 피하는 식으로 학습한다.

퍼셉트론: 인공 뉴런 하나

이제 기계가 어떻게 "학습"하는지 구체적으로 들어가보자. 가장 기본이 되는 개념이 퍼셉트론이다.

우리 뇌는 뉴런(신경세포)들이 연결되어 작동한다. 과학자들은 이걸 수학적으로 흉내 내보자고 생각했고, 그렇게 나온 게 퍼셉트론이다. 가장 단순한 형태의 인공 뉴런 1개라고 보면 된다.

영화 볼지 말지 결정하는 상황을 생각해보자.

재밌어 보임 → 중요도 3
시간 있음 → 중요도 2
돈 있음 → 중요도 2
친구가 간다 → 중요도 1

각 조건이 충족되면 1, 아니면 0이다. 그리고 이걸 중요도(가중치)와 곱해서 다 더한다.

(1×3) + (1×2) + (0×2) + (1×1) = 6점

내가 정한 기준이 5점이라면? 6점은 5점을 넘으니까 "영화 본다!"가 된다.

퍼셉트론이 정확히 이 구조다. 입력을 받고, 각 입력에 가중치를 곱하고, 다 더해서, 기준(임계값)을 넘으면 1을 출력하고 아니면 0을 출력한다.

그럼 학습은 어떻게 할까? 퍼셉트론이 틀린 답을 내면 가중치를 조금씩 조정 한다. 영화가 재미없었으면 "재밌어 보임"의 가중치를 낮추는 식이다. 이걸 수천, 수만 번 반복하면 점점 정확해진다.

근데 퍼셉트론 하나로는 복잡한 문제를 못 푼다. 그래서 퍼셉트론을 여러 개 연결하기 시작했다.

딥러닝: 신경망을 깊게 쌓다

퍼셉트론을 여러 개 연결하면 신경망 이 된다. 그리고 이 신경망을 층층이 깊게 쌓으면? 그게 딥러닝 이다. Deep의 뜻이 "깊다"니까.

얕은 신경망: 입력 → [층 1개] → 출력
딥러닝:     입력 → [층] → [층] → [층] → ... → 출력

왜 깊게 쌓으면 좋을까? 고양이 사진을 인식하는 과정을 보면 이해가 된다.

1층에서는 선, 점, 모서리 같은 아주 단순한 걸 배운다. 2층에서는 동그라미, 세모 같은 모양을 배운다. 3층에서는 눈, 코, 귀를 배운다. 4층에서는 얼굴 형태를 배운다. 5층에서는 "이건 고양이다!"를 판단한다.

단순한 것에서 복잡한 것으로, 점점 조합해 나가는 거다. 층이 많을수록 더 복잡한 개념을 이해할 수 있다.

딥러닝 아이디어는 사실 오래전부터 있었다. 근데 최근에야 폭발적으로 발전한 이유가 있다.

첫째, 데이터 가 엄청나게 늘었다. 인터넷 덕분에 학습에 쓸 데이터가 넘쳐난다.

둘째, 컴퓨팅 파워 가 좋아졌다. 특히 GPU의 발전으로 병렬 연산이 가능해졌다.

셋째, 알고리즘 이 개선됐다. 깊은 신경망도 안정적으로 학습시키는 방법들이 발견됐다.

Transformer: 게임 체인저의 등장

2017년, 구글에서 "Attention Is All You Need"라는 논문이 나온다. 여기서 제안된 게 Transformer 아키텍처다. 이게 GPT, BERT, Claude 같은 현대 AI의 기반이 됐다.

기존에는 RNN이라는 구조를 많이 썼다. RNN은 글을 읽을 때 한 단어씩 순서대로 읽는다. "나는 밥을 먹었다"를 처리할 때 "나는" 읽고, "밥을" 읽고, "먹었다" 읽는 식이다.

문제는 앞에서 뭘 읽었는지 자꾸 까먹는다는 거다. 문장이 길어지면 앞부분 내용이 희미해진다.

Transformer는 접근법이 다르다. 문장 전체를 한 번에 보면서 각 단어가 다른 모든 단어와 얼마나 관련 있는지 파악한다.

교실에 30명이 있다고 상상해보자. 기존 방식은 선생님이 1번 학생한테 물어보고, 다 끝나면 2번한테 물어보고... 30번까지 차례로 물어본다. Transformer 방식은 선생님이 "다 같이 손들어!"하고 30명 전체를 한 번에 본다.

이게 가능하게 해주는 핵심 메커니즘이 Self-Attention 이다.

Self-Attention: 나랑 관련 있는 게 뭐지?

Self-Attention을 한 마디로 하면 "나랑 관련 있는 애가 누구지?"를 찾는 거다.

"강아지가 공원에서 뛰어놀았다. 그것은 행복해 보였다."

여기서 "그것"이 뭘 가리킬까? 사람은 자연스럽게 "강아지"라고 안다. Self-Attention은 이걸 기계적으로 해결한다.

"그것은"이라는 단어가 문장의 모든 단어를 쳐다본다. 그리고 각 단어와 얼마나 관련 있는지 점수를 매긴다.

강아지가: ⭐⭐⭐⭐⭐ (관련도 높음)
공원에서: ⭐
뛰어놀았다: ⭐⭐
행복해: ⭐⭐

"강아지"가 제일 관련 있네? 그래서 "그것 = 강아지"라고 이해한다.

이걸 문장의 모든 단어가 동시에 한다. 서로가 서로를 쳐다보면서 관계를 파악한다. 문장이 자기 자신 안에서 관계를 찾으니까 "Self"-Attention이다.

덕분에 아무리 긴 문장이어도 앞부분과 뒷부분의 관계를 놓치지 않는다. 그리고 모든 단어를 동시에 처리하니까 병렬 연산도 가능해서 속도도 빠르다.

GPT: 왜 이렇게 똑똑해졌을까?

GPT(Generative Pre-trained Transformer)는 Transformer를 기반으로 만든 언어 모델이다. ChatGPT의 GPT가 이거다.

GPT가 기존 AI보다 월등히 뛰어난 이유는 몇 가지가 있다.

첫째, Transformer 아키텍처 덕분에 긴 문맥도 잘 이해한다. 앞에서 설명한 Self-Attention이 핵심이다.

둘째, 대규모 사전 학습 을 한다. 인터넷의 방대한 텍스트로 "다음 단어 예측"을 엄청나게 학습한다. 이 과정에서 문법, 상식, 추론 능력까지 자연스럽게 익힌다.

셋째, 전이 학습 이 가능하다. 한 번 잘 학습해놓으면 번역, 요약, 질의응답 등 다양한 일에 활용할 수 있다. 매번 처음부터 학습할 필요가 없다.

넷째, 스케일링 효과가 있다. 모델 크기, 데이터 양, 컴퓨팅을 늘릴수록 성능이 예측 가능하게 올라간다. GPT-3, GPT-4로 갈수록 놀라운 능력이 나타났다.

다섯째, Few-shot 학습 이 된다. 기존 모델은 새 작업마다 대량의 학습 데이터가 필요했다. GPT는 프롬프트에 예시 몇 개만 주면 새로운 작업도 수행한다.

정리

길었지만 결국 핵심은 이거다.

머신러닝 은 기계가 데이터에서 스스로 규칙을 찾는 거다.

퍼셉트론 은 입력에 중요도를 곱해서 더한 뒤, 기준을 넘으면 활성화되는 가장 단순한 인공 뉴런이다.

딥러닝 은 이런 뉴런을 여러 층으로 깊게 쌓아서 복잡한 패턴을 학습하는 거다.

Transformer 는 문장 전체를 한 번에 보면서 Self-Attention으로 관계를 파악하는 구조다.

GPT 는 Transformer + 대규모 사전 학습 + 스케일링으로 만든 언어 모델이다.

이 흐름을 이해하면 앞으로 AI 관련 글을 읽을 때 훨씬 수월해진다. 더 깊이 들어가고 싶다면 신경망의 기본 개념이나 퍼셉트론과 ADALINE 글도 참고해보면 좋다.