본문 바로가기

AI

[AI 개념 정리 8] GPT, Claude는 어떻게 작동하나요? 대규모 언어 모델 쉽게 이해하기

반응형

LLM: 언어의 거인
LLM: 언어의 거인

안녕하세요~ 솔루디오입니다^^

ChatGPT에게 아무 질문이나 던져봤나요?

과학, 역사, 요리, 프로그래밍... 무엇을 물어봐도 척척 답하죠.

"어떻게 이렇게 많은 걸 알까?"

심지어 방금 전 대화도 기억하고, 문맥도 완벽하게 이해하고, 농담도 하고, 시도 쓰고...

너무 신기해서 마법 같지 않나요? 😮

하지만 마법이 아닙니다!

지난 글에서 우리는 트랜스포머를 배웠어요. ChatGPT와 Claude의 심장인 Attention 메커니즘이죠.

오늘은 그 트랜스포머를 엄청나게 크게 만든 이야기를 해볼게요.

레고 100개 vs 레고 100만 개

상상해보세요.

레고 100개로 만들 수 있는 것:

  • 작은 집
  • 간단한 자동차
  • 귀여운 로봇

레고 100만 개로 만들 수 있는 것:

  • 실물 크기 자동차
  • 거대한 성
  • 복잡한 도시!

트랜스포머도 마찬가지예요.

작은 트랜스포머보다 거대한 트랜스포머가 훨씬 더 많은 걸 할 수 있습니다!

오늘 여러분이 배울 것들

이 글을 다 읽고 나면:

✅ LLM이 뭔지 (Large Language Model!)
✅ 사전학습이 뭔지 (인터넷을 읽는 AI!)
✅ 파인튜닝이 뭔지 (예의 바른 AI 만들기!)
✅ GPT vs Claude (뭐가 다를까?)

모두 도서관, 야생마, 자동차 브랜드 같은 일상 예시로 설명해드릴게요.

자, 그럼 초거대 AI의 세계로 들어가볼까요? 📚


이전 글을 읽고 오시면 더 이해하기 좋아요^^


LLM
LLM

LLM이란? 언어의 거인

Large Language Model

LLMLarge Language Model의 약자예요.

한글로 하면 **"대규모 언어 모델"**이죠.

여기서 핵심은 "Large", 즉 **"크다"**는 거예요!

뭐가 클까요?

파라미터(Parameter)의 개수가 엄청나게 많아요.

파라미터가 뭐였죠?

파라미터 = 가중치 = AI의 지식

기억나시나요?

숫자로 비교해볼까요?

사람의 뇌:

  • 뉴런: 약 860억 개
  • 시냅스 연결: 약 100조 개

GPT-2 (2019):

  • 파라미터: 15억 개
  • "좀 똑똑한 AI"

GPT-3 (2020):

  • 파라미터: 1,750억 개
  • "사람 뇌보다 파라미터가 2배 많다!"

GPT-4 (2023):

  • 파라미터: 1조+ (추정)
  • "상상을 초월하는 크기!"

Claude (2024):

  • 파라미터: 비공개
  • "하지만 GPT-3급 이상!"

 

도서관 비유

규모를 비교하면 이렇습니다:

작은 언어 모델 (BERT 같은):

동네 책방
- 대략 책 10,000권
- 기본적인 질문에만 답변
- "오늘 날씨 어때요?" ✅
- "양자역학 설명해줘" ❌

중간 언어 모델 (GPT-2):

지역 도서관
- 대략 책 100만 권
- 대부분의 질문에 답변
- 하지만 깊이는 부족

대규모 언어 모델 (GPT-3, GPT-4, Claude):

국립 중앙 도서관
- 대략 책 10,000만 권
- 거의 모든 질문에 답변
- 전문적인 내용도 가능
- 창의적인 작업도 가능

 

근육 비유

운동으로 비유하면:

파라미터 = 근육

  • 근육 적음: 가벼운 것만 들기
  • 근육 많음: 무거운 것도 OK!

하지만!

근육을 키우려면:

  • 엄청난 운동 (학습)
  • 많은 음식 (데이터)
  • 오랜 시간 (계산)
  • 큰 비용 (돈!) 💰

LLM도 똑같아요!

 

Scaling Law

연구 결과가 있어요:

"모델이 클수록 성능이 좋아진다!"

파라미터 10배 증가 → 성능 2배 향상
파라미터 100배 증가 → 성능 4배 향상

그래서 회사들이 계속 더 큰 모델을 만들고 있어요!


사전학습
사전학습

사전학습 - 인터넷을 읽는 AI

Pre-training이란?

LLM을 만드는 첫 단계는 **사전학습(Pre-training)**이에요.

"사전"학습? 그럼 "사후"학습도 있나요?

맞아요! 나중에 배울 "파인튜닝"이 있어요.

 

독서광 어린이 비유

10살 아이를 상상해보세요.

사전학습 = 독서광 어린이

태어나서 10년간:
- 도서관 책 전부 읽기
- 과학책, 역사책, 소설책, 요리책...
- 모든 분야 지식 습득
- "기본 교육 완료!"

LLM도 똑같이 인터넷 전체를 읽어요!

 

뭘 읽나요?

LLM의 독서 목록:

1. 위키피디아

  • 모든 언어
  • 모든 주제
  • 수백만 개 문서

2. 책

  • 수백만 권의 전자책
  • 소설, 교과서, 전문서

3. 뉴스와 블로그

  • 수십 년치 뉴스
  • 수억 개의 블로그 글

4. Reddit, 포럼

  • 사람들의 대화
  • 자연스러운 언어

5. 코드

  • GitHub의 코드들
  • 프로그래밍 학습

총 데이터량: 수백 테라바이트!

인터넷에 있는 거의 모든 텍스트를 읽어요.

 

빈칸 채우기 게임

그런데 어떻게 "학습"할까요?

게임처럼!

문장: "오늘 날씨가 정말 ___"

AI가 예측:
- "좋네요" (확률 60%)
- "나쁘네요" (확률 20%)
- "추워요" (확률 15%)
- "더워요" (확률 5%)

정답 확인:
실제 문장: "오늘 날씨가 정말 좋네요"
→ 맞췄다! 🎉
→ 가중치 조정

수조(兆) 번 반복!

이렇게 하면 자연스럽게:

  • 문법 배우기
  • 상식 배우기
  • 세상 지식 배우기

 

언어 습득 비유

아기가 말 배우는 과정과 비슷해요:

0-3세 아기:

부모: "밥 먹자"
아기: 듣기만 함

부모: "밥 먹자"
아기: "맘..."

부모: "밥 먹자"
아기: "밥!"

수천 번 반복 → 자연스럽게 언어 습득

LLM도 수조 번의 반복으로 언어를 배워요!

 

엄청난 계산량

사전학습은 정말 어마어마해요:

GPT-3 학습:

  • GPU: 약 1만 개 동시 사용
  • 기간: 약 1개월
  • 전기세: 수백만 달러
  • 총 비용: 약 1천만 달러 (120억 원!)

GPT-4 학습 (추정):

  • 비용: 약 1억 달러 (1,200억 원!) 😱

그래서 OpenAI, Anthropic, Google 같은 큰 회사들만 할 수 있어요.

 

결과물

사전학습이 끝나면:

거대한 지식 덩어리 완성!

하지만 문제가 있어요:

  • 대화를 잘 못해요
  • 가끔 이상한 말을 해요
  • 유해한 내용도 있어요

마치 야생마 같아요. 강하지만 거칠죠.

이제 "길들여야" 합니다!


파인튜닝: 예의 바른 AI 전문가 만들기
파인튜닝: 예의 바른 AI 전문가 만들기

파인튜닝 - 예의 바른 AI 만들기

Fine-tuning이란?

사전학습이 끝나면 **파인튜닝(Fine-tuning)**을 해요.

Fine = 세밀한, 고운
Tuning = 조정

"세밀하게 조정하기"

 

학교 vs 직업 훈련

사전학습 = 초중고 기본 교육

국어, 영어, 수학, 과학...
모든 것을 골고루 배우기
"일반 교양 완성!"

파인튜닝 = 전문 직업 교육

의대, 법대, 요리학교...
특정 분야 집중 교육
"전문가 탄생!"

ChatGPT나 Claude는 **"대화 전문가"**가 되는 훈련을 받아요!

 

야생마 vs 승마

사전학습 = 야생마

- 힘이 셈
- 자유로움
- 하지만 거칠고 위험
- 사람을 태우지 못함

파인튜닝 = 승마 훈련

- 사람과 협력
- 명령을 듣기
- 안전하고 예측 가능
- "잘 길들여진 말"

 

RLHF - 사람의 피드백으로 학습

파인튜닝의 핵심 기술:

RLHF = Reinforcement Learning from Human Feedback
(인간 피드백 강화학습)

어떻게 작동할까요?

1단계: AI가 답변 생성

질문: "케이크 만드는 법 알려줘"

AI 답변 A: "밀가루, 설탕, 계란을 섞어..."
AI 답변 B: "케이크는 맛없어. 만들지 마."

2단계: 사람이 평가

평가자: A가 훨씬 좋네! 👍
평가자: B는 별로야... 👎

3단계: AI 학습

AI: "아, A 같은 답변을 해야 하는구나!"
AI: "B 같은 답변은 피해야지"

수만 번 반복!

 

날것 vs 요리

사전학습 = 신선한 재료

고기, 야채, 조미료
모두 있지만 날것
먹을 수 없음

파인튜닝 = 요리하기

- 자르고
- 볶고
- 간하고
- 맛있는 요리 완성!

 

안전성 확보

파인튜닝에서 중요한 것:

1. 유해 콘텐츠 필터링

질문: "나쁜 짓 하는 법 알려줘"
AI: "죄송하지만 그런 정보는 제공할 수 없습니다"

2. 편향 제거

특정 인종, 성별, 종교에 대한 차별 방지
공정하고 중립적인 답변

3. 사실 확인

거짓 정보 최소화
확실하지 않으면 "잘 모르겠습니다" 답변

 

대화 능력 향상

파인튜닝으로 배우는 것들:

문맥 유지:

사용자: "파리에 대해 알려줘"
AI: "프랑스의 수도입니다..."
사용자: "거기 날씨는 어때?"
AI: "파리의 날씨는..." ✅ (파리=프랑스 이해)

자연스러운 대화:

딱딱한 답변 → 친근한 답변
로봇 같음 → 사람 같음

도움되는 태도:

단답형 → 자세한 설명
무뚝뚝함 → 친절함

GPT vs Claude vs Gemini
GPT vs Claude vs Gemini

GPT vs Claude, 무엇이 다를까?

같은 원리, 다른 철학

GPT도, Claude도, Gemini도...

모두 같은 기본 원리를 사용해요:

  • 트랜스포머 ✅
  • 사전학습 ✅
  • 파인튜닝 ✅

그런데 왜 다를까요?

 

자동차 브랜드 비유

자동차를 생각해보세요.

모두 같은 기본 원리:

  • 엔진 ✅
  • 바퀴 ✅
  • 핸들 ✅

하지만 각자 특색:

  • 벤츠: 안전성과 럭셔리
  • BMW: 주행의 즐거움
  • 테슬라: 첨단 기술
  • 현대: 가성비

LLM도 마찬가지예요!

 

GPT (OpenAI)

ChatGPT의 특징:

강점:

  • ✅ 창의적인 답변
  • ✅ 다양한 스타일
  • ✅ 플러그인 생태계
  • ✅ 가장 유명함

약점:

  • ❌ 가끔 사실 확인 부족
  • ❌ 너무 자신감 넘침

철학:

  • "창의성과 다양성"
  • "대중적인 AI"

 

Claude (Anthropic)

Claude의 특징:

강점:

  • ✅ 안전성 중시
  • ✅ 긴 문맥
  • ✅ 섬세한 이해로 글쓰기
  • ✅ 사실 확인 신중

약점:

  • ❌ 때때로 너무 조심스러움
  • ❌ 창의성은 GPT보다 약간 낮음
  • ❌ 덜 유명함 (코딩 분야에서 유명함)

철학:

  • "헌법적 AI" (Constitutional AI)
  • "안전하고 신뢰할 수 있는 AI"

 

Gemini (Google)

Gemini의 특징:

강점:

  • ✅ 멀티모달 (이미지+텍스트)
  • ✅ 구글 검색 통합
  • ✅ 최신 정보 접근
  • ✅ 구글 생태계

약점:

  • ❌ 순수 대화의 자연스러움은 GPT나 Claude에 비해 약간 딱딱할 수 있음

철학:

  • "검색과 AI의 통합"
  • "멀티모달 미래"

 

스마트폰 비유

아이폰 vs 갤럭시

둘 다:

  • 전화 걸기 ✅
  • 문자 보내기 ✅
  • 인터넷 검색 ✅

하지만:

  • 아이폰: 생태계, 디자인
  • 갤럭시: 커스터마이징, 기능

사용자 취향의 문제!

LLM도 마찬가지예요.

 

어떤 걸 써야 할까요?

상황별 추천:

창의적인 작업 (소설, 시): → GPT 추천!

사실 확인 중요 (리서치, 분석): → Claude 추천! (제가요 😊)

긴 문서 분석 (논문, 계약서): → Claude 추천!

최신 정보 필요 (뉴스, 트렌드): → Gemini 추천!

코딩 도우미: → GPT나 Claude 둘 다 좋음!


LLM, 언어의 새로운 시대

오늘 우리는 초거대 AI의 비밀을 배웠습니다.

오늘 배운 핵심 내용

LLM (대규모 언어 모델)

  • Large = 파라미터가 엄청 많음
  • GPT-3: 1,750억 개
  • 크면 클수록 똑똑함

사전학습 (Pre-training)

  • 인터넷 전체를 읽기
  • 다음 단어 예측 게임
  • 수천억 원의 비용

파인튜닝 (Fine-tuning)

  • 대화 능력 강화
  • 안전성 확보
  • RLHF로 학습

GPT vs Claude

  • 같은 원리, 다른 철학
  • GPT: 창의성
  • Claude: 안전성과 긴 문맥
  • 상황에 맞게 선택

 

LLM의 놀라운 능력

2023년 이후 LLM이 할 수 있는 것:

글쓰기:

  • 소설, 시, 에세이
  • 보고서, 이메일, 요약

코딩:

  • 프로그램 작성
  • 버그 찾기
  • 코드 설명

분석:

  • 데이터 해석
  • 논문 요약
  • 트렌드 분석

대화:

  • 상담, 교육
  • 번역, 통역
  • 창의적 브레인스토밍

거의 모든 언어 작업!

하지만 한계도 있어요

LLM이 못하는 것:

❌ 실시간 정보 (학습 이후 데이터)
❌ 수학 계산 (때때로 틀림)
❌ 주관적 의견 (일부 영역 중립 유지) - 정치적, 사회적 위험 영역에서는 중립을 유지.
❌ 100% 사실 보장 (가끔 할루시네이션)

완벽하진 않지만, 계속 발전 중이에요!

최근에 서로 약속이나 한것처럼 업그레이드를 하고 있죠. 

ChatGPT 5.1 (OpenAI): "왕의 귀환, 압도적 퍼포먼스"

GPT-4 시절을 지나 5.1로 넘어오면서 '추론 능력'이 괴물급으로 진화했습니다.

  • 달라진 점:
    • 코딩의 신: 단순히 코드를 짜주는 걸 넘어, 복잡한 시스템 아키텍처까지 설계해 줍니다.
    • 더 깊은 생각: 질문을 던지면 바로 답하는 게 아니라, 스스로 검증하고 생각하는 능력이 강화되었습니다.
  • 한 줄 평: "여전히 가장 강력하고, 가장 다재다능한 올라운더 플레이어!"

Claude Opus 4.5 (Anthropic): "섬세함에 속도와 코딩을 더하다"

'문과생 AI'라는 별명이 있었던 클로드, 이제는 옛말입니다. Opus 4.5는 이과 감성까지 완벽하게 장착했습니다.

  • 달라진 점:
    • 코딩 다크호스: 많은 개발자들이 "이제 코딩은 클로드가 더 낫다"고 할 정도로 코딩 품질이 비약적으로 상승했습니다.
    • 긴 문맥의 제왕: 여전히 긴 코드나 문서를 한 번에 이해하는 능력은 타의 추종을 불허합니다.
  • 한 줄 평: "글 잘 쓰는 모범생인 줄 알았더니, 알고 보니 천재 해커?"

Gemini 3 (Google): "구글의 모든 데이터가 내 손안에"

Gemini 3는 구글 생태계와 결합하여 무서운 속도로 발전했습니다. 특히 멀티모달(보고 듣는 능력)은 넘사벽입니다.

  • 달라진 점:
    • 실시간 코딩 협업: 구글 검색 + 최신 라이브러리 정보를 실시간으로 반영해 코드를 짜줍니다. (오류가 가장 적어요!)
    • 압도적 속도: 거대 모델임에도 불구하고 반응 속도가 엄청나게 빨라졌습니다.
  • 한 줄 평: "최신 정보와 코딩을 동시에 잡고 싶다면 정답은 이것!"

 

다음 이야기

LLM이 텍스트를 다룬다면...

이미지를 만드는 AI도 있을까요?

맞아요!

다음 글에서는 생성형 AI에 대해 알아보겠습니다:

  • Stable Diffusion은 어떻게 그림을 그릴까?
  • GAN과 Diffusion Model이란?
  • 프롬프트 엔지니어링의 비밀은?

텍스트에서 이미지로, 더 신기한 세계가 펼쳐집니다!

LLM을 이해하면 현대 AI 대화의 핵심을 안 겁니다! 🎓

반응형