본문 바로가기

AI

[AI 개념 정리 2] AI는 어떻게 공부할까? 넷플릭스와 알파고로 배우는 머신러닝 원리

반응형

머신러닝의 3가지 방법
머신러닝의 3가지 방법

안녕하세요~ 솔루디오입니다^^

이번에 머신러닝이 무엇인가에 대해서 정리를 해봤어요. AI를 알려면 빠질수가 없는 개념이지 않을까 해요. 한때 열심히 머신러닝을 공부를 해본적도 있기는 한데 AI가 나오면서 완전히 잊혀지고 말았네요. 지난 이야기를 좀 정리를 해보고 이번주 주제에 대해서 이야기를 해볼게요.


이전 글을 읽고 오시면 더 이해하기 좋아요^^


지난 이야기: AI의 핵심은 '학습'

지난 글에서 우리는 AI가 무엇인지 알아봤습니다. 기억하시나요? AI는 "경험을 통해 배우고, 스스로 판단할 수 있는 컴퓨터 시스템"이라고 했죠. 그리고 AI의 핵심은 바로 '학습' 능력이라는 것도 배웠습니다.

그렇다면 궁금증이 생깁니다.

"AI는 대체 어떻게 학습하는 걸까?"

요리사가 요리를 배우는 방법에는 여러 가지가 있습니다. 선생님한테 직접 배울 수도 있고, 여러 요리를 맛보면서 스스로 깨달을 수도 있고, 계속 시도하다가 실패와 성공을 통해 배울 수도 있죠.

AI도 마찬가지입니다. 상황에 따라 다른 방식으로 학습합니다. 그리고 이 '학습 방법'을 연구하는 분야가 바로 **머신러닝(Machine Learning)**입니다.

오늘은 머신러닝이 뭔지, 그리고 AI가 학습하는 세 가지 주요 방식에 대해 알아보겠습니다. 어렵지 않으니 편하게 따라오세요!


머신러닝이란 무엇인가?

머신러닝을 한 문장으로 정의하면 이렇습니다.

"컴퓨터가 데이터로부터 스스로 학습하게 만드는 기술"

좀 더 쉽게 풀어볼까요?

머신러닝이란 무엇인가?
머신러닝이란 무엇인가?

 

전통적인 프로그래밍 vs 머신러닝

전통적인 프로그래밍은 이렇게 작동합니다:

프로그래머가 모든 규칙을 일일이 코드로 작성합니다. 예를 들어, 스팸 메일을 걸러내는 프로그램을 만든다면:

만약 제목에 "대출"이 들어있으면 → 스팸
만약 보낸 사람이 이상하면 → 스팸
만약 링크가 10개 이상이면 → 스팸
...

이런 식으로 가능한 모든 경우를 프로그래머가 예상해서 규칙을 만들어야 합니다. 하지만 문제가 있죠. 스팸 메일은 계속 진화합니다. 새로운 패턴이 나타나면? 프로그래머가 다시 규칙을 수정해야 합니다.

머신러닝은 다릅니다:

수천, 수만 개의 이메일 예시를 컴퓨터에게 보여줍니다. "이건 스팸, 이건 정상, 이건 스팸..." 이렇게요. 그러면 컴퓨터가 스스로 패턴을 찾아냅니다.

"아, 스팸 메일은 대부분 특정 단어를 많이 쓰는구나"
"정상 메일은 이런 특징이 있구나"
"이 조합이 나오면 95% 확률로 스팸이네"

사람이 규칙을 만들어주지 않아도, 데이터를 보고 스스로 배우는 거죠.

 

왜 머신러닝이 필요할까?

규칙을 만들기 너무 복잡하거나, 규칙이 계속 바뀌거나, 패턴이 너무 미묘해서 사람이 설명하기 어려운 경우가 많습니다.

얼굴 인식을 생각해보세요. "눈이 두 개 있고, 코가 가운데 있고..." 이런 규칙으로는 절대 제대로 된 얼굴 인식을 만들 수 없습니다. 각도가 바뀌면? 조명이 바뀌면? 표정이 바뀌면? 경우의 수가 무한대죠.

하지만 머신러닝을 사용하면, 수만 장의 얼굴 사진을 보여주기만 하면 됩니다. 컴퓨터가 알아서 "얼굴이란 이런 거구나"를 학습합니다.

머신러닝 = 명시적으로 프로그래밍하지 않고, 데이터로부터 학습하는 것


AI vs 머신러닝 vs 딥러닝: 관계 정리

이 세 용어가 헷갈리시나요? 러시안 인형(마트료시카)을 떠올려보세요.

AI-머신러닝-딥러닝
AI-머신러닝-딥러닝

AI (인공지능) - 가장 큰 개념

목표 또는 비전입니다. "인간처럼 생각하고 판단할 수 있는 컴퓨터를 만들자"라는 큰 그림이죠. 요리에 비유하면 "맛있는 음식을 만들자"라는 목표와 같습니다.

머신러닝 - 중간 개념

AI를 구현하는 방법 중 하나입니다. 데이터로부터 학습하는 접근법이죠. 요리 비유로는 "레시피를 배워서 요리하자"라는 구체적인 방법론입니다.

AI를 만드는 방법에는 여러 가지가 있지만, 현재 가장 성공적이고 널리 쓰이는 방법이 바로 머신러닝입니다.

딥러닝 - 가장 작은 개념

머신러닝의 한 종류입니다. 인간의 뇌 구조를 모방한 '신경망'을 사용하는 특수한 머신러닝 기법이죠. 요리 비유로는 "프랑스 요리 기법"처럼 특정한 전문 기술에 해당합니다.

딥러닝은 다음 시리즈에서 자세히 다룰 예정이니, 지금은 "머신러닝의 고급 버전이구나" 정도로만 이해하시면 됩니다.

한 문장 정리

  • AI: "무엇을" 만들고 싶은가 (똑똑한 컴퓨터)
  • 머신러닝: "어떻게" 만들 것인가 (데이터로 학습)
  • 딥러닝: 머신러닝의 "특수한 방법" (신경망 사용)

중요: 머신러닝은 AI의 부분집합이고, 딥러닝은 머신러닝의 부분집합입니다. 모든 딥러닝은 머신러닝이고, 모든 머신러닝은 AI입니다. 하지만 역은 성립하지 않아요.


지도학습(Supervised Learning): 선생님과 함께 배우기

머신러닝에는 크게 세 가지 학습 방식이 있습니다. 첫 번째는 지도학습입니다.

지도학습
지도학습

지도학습이란?

정답이 있는 데이터로 학습하는 방식입니다.

초등학교 때를 떠올려보세요. 선생님이 문제를 주고 정답도 함께 알려주셨죠? "1+1은 2야", "서울은 대한민국의 수도야" 이런 식으로요. 지도학습이 바로 이런 방식입니다.

컴퓨터에게 이렇게 가르칩니다:

[사진] → "이건 고양이"
[사진] → "이건 강아지"
[사진] → "이건 고양이"
[사진] → "이건 강아지"
...
(수천 번 반복)

그러면 컴퓨터는 "고양이는 이렇게 생겼구나, 강아지는 이렇게 생겼구나"를 배웁니다. 나중에 처음 보는 사진을 줘도 "이건 고양이 같아요" 또는 "이건 강아지 같아요"라고 대답할 수 있게 되죠.

 

입력(X)과 출력(Y)

지도학습은 항상 **입력(X)**과 **정답(Y)**의 쌍으로 이루어집니다.

  • 입력(X): 고양이 사진 → 출력(Y): "고양이"
  • 입력(X): "오늘 점심 뭐 먹을까요?" → 출력(Y): "일상 대화"
  • 입력(X): 집 크기, 위치, 방 개수 → 출력(Y): 5억원

컴퓨터는 이런 X→Y 관계를 학습합니다. "X가 주어지면 Y를 예측하면 되는구나!"

 

두 가지 종류: 분류 vs 회귀

지도학습은 크게 두 종류로 나뉩니다.

1. 분류(Classification): 카테고리 정하기

정답이 **범주(카테고리)**인 경우입니다.

  • 이 이메일은 스팸인가, 정상인가? → 스팸 / 정상
  • 이 사진은 고양이인가, 강아지인가? → 고양이 / 강아지
  • 이 종양은 양성인가, 악성인가? → 양성 / 악성

"A 아니면 B" 또는 "A, B, C 중 하나"처럼 선택하는 문제입니다.

2. 회귀(Regression): 숫자 예측하기

정답이 연속된 숫자인 경우입니다.

  • 이 집의 가격은? → 5억 2천만원
  • 내일 기온은? → 23.5도
  • 이 주식의 내일 가격은? → 52,300원

구체적인 숫자 값을 예측하는 문제입니다.

 

실제 활용 사례

이메일 스팸 필터: 수백만 개의 이메일(X)과 "스팸/정상" 라벨(Y)로 학습합니다.

음성 인식: 음성 파일(X)과 그 내용의 텍스트(Y)로 학습합니다. "시리야, 날씨 알려줘"라는 음성을 들으면, 해당 텍스트로 변환하는 거죠.

질병 진단 보조: 환자의 검사 결과(X)와 진단명(Y)을 학습해서, 새로운 환자의 검사 결과를 보고 질병을 예측합니다.

집값 예측: 집의 크기, 위치, 방 개수 등(X)과 실제 거래 가격(Y)으로 학습해서, 새로운 집의 적정 가격을 예측합니다.

 

왜 "지도"라고 부를까?

선생님(사람)이 정답을 알려주며 **지도(指導)**하기 때문입니다. 컴퓨터 혼자서는 "이게 고양이인지 강아지인지" 알 수 없어요. 사람이 라벨을 붙여줘야 합니다.


비지도학습(Unsupervised Learning): 스스로 패턴 찾기

두 번째 학습 방식은 비지도학습입니다.

비지도학습
비지도학습

비지도학습이란?

정답 없이 데이터의 패턴을 스스로 찾는 방식입니다.

상자에 수백 개의 레고 블록이 섞여 있다고 상상해보세요. 아무도 "이건 빨간색 그룹, 이건 파란색 그룹"이라고 알려주지 않습니다. 하지만 여러분은 자연스럽게 색깔별로, 또는 크기별로 블록을 분류할 수 있죠?

비지도학습이 바로 이겁니다. 정답(라벨)이 없어도, 데이터를 보면서 "아, 이것들끼리 비슷하네" 하고 스스로 그룹을 만드는 거예요.

 

지도학습과의 차이

지도학습:

[고양이 사진] → "고양이" ✓ (정답 있음)
[강아지 사진] → "강아지" ✓ (정답 있음)

비지도학습:

[동물 사진 100장] → "비슷한 것끼리 묶어봐" (정답 없음)
→ 컴퓨터가 스스로: "음... 그룹 A, 그룹 B, 그룹 C로 나눌 수 있겠네"

사람이 "이게 고양이야"라고 알려주지 않아도, 컴퓨터가 알아서 비슷한 특징을 가진 것들을 묶습니다.

 

대표적인 방법: 클러스터링(군집화)

클러스터링은 비슷한 데이터끼리 묶는 기법입니다.

도서관을 상상해보세요. 수천 권의 책이 있는데 분류가 안 되어 있습니다. 사서가 일일이 라벨을 붙이기엔 너무 많죠. 대신 컴퓨터가 책 내용을 분석해서:

  • "이 책들은 과학에 관한 것 같아" → 그룹 1
  • "이 책들은 역사에 관한 것 같아" → 그룹 2
  • "이 책들은 소설 같아" → 그룹 3

이렇게 자동으로 분류하는 겁니다.

 

실제 활용 사례

고객 세분화: 쇼핑몰이 수만 명의 고객 데이터를 가지고 있습니다. 구매 패턴을 분석하면:

  • 그룹 A: 주말에 비싼 제품을 구매하는 고객들
  • 그룹 B: 할인 상품만 찾는 가격 민감 고객들
  • 그룹 C: 신제품을 빠르게 구매하는 얼리어답터들

이렇게 자동으로 분류할 수 있고, 각 그룹에 맞는 마케팅을 할 수 있죠.

추천 시스템: Netflix가 "이 영화 좋아하실 것 같아요"라고 추천하는 것도 비지도학습의 일종입니다. 비슷한 시청 패턴을 가진 사람들을 묶어서, "이 그룹의 사람들이 좋아하는 영화"를 추천하는 거죠.

이상 탐지: 신용카드 사기를 감지할 때도 사용됩니다. 대부분의 거래는 정상적인 패턴을 보입니다. 그런데 갑자기 평소와 전혀 다른 패턴의 거래가 발생하면? "이상하다, 도난 카드일 수도" 하고 경고를 보냅니다.

 

왜 "비지도"인가?

선생님(사람)이 정답을 알려주지 않기 때문입니다. 컴퓨터가 지도 없이 스스로 탐험하며 패턴을 찾아내는 거죠.

 

언제 비지도학습을 쓸까?

라벨을 붙이기 어렵거나 비용이 많이 들 때 사용합니다.

수백만 장의 사진에 일일이 "고양이", "강아지" 라벨을 붙이는 건 엄청난 시간과 비용이 듭니다. 하지만 비지도학습은 라벨 없이도 작동하니까 훨씬 경제적이죠.

또한 사람도 정답을 모를 때 유용합니다. 예를 들어, "우리 고객들이 정확히 몇 개의 그룹으로 나뉠까?"는 사람도 미리 알 수 없어요. 비지도학습이 데이터를 분석해서 알려줍니다.


강화학습(Reinforcement Learning): 시행착오로 배우기

세 번째 학습 방식은 강화학습입니다.

강화학습
강화학습

강화학습이란?

시행착오를 통해, 보상을 최대화하는 방향으로 학습하는 방식입니다.

강아지를 훈련시킬 때를 생각해보세요. "앉아"라고 명령했을 때:

  • 강아지가 앉으면 → 간식을 줍니다 (보상)
  • 강아지가 무시하면 → 간식을 안 줍니다 (보상 없음)

강아지는 점점 "앉으면 간식을 받는구나!"를 학습하고, 앉는 행동을 더 자주 하게 됩니다.

강화학습도 똑같습니다. 컴퓨터에게:

  • 좋은 행동을 하면 → 점수를 줍니다
  • 나쁜 행동을 하면 → 점수를 깎습니다

컴퓨터는 점수를 최대한 많이 받으려고 노력하면서 학습합니다.

 

지도학습, 비지도학습과의 차이

지도학습: "정답을 알려주면서" 배움
비지도학습: "정답 없이 패턴을" 찾음
강화학습: "시도해보고 결과를 보면서" 배움

강화학습은 환경과 상호작용합니다. 뭔가를 시도하고, 그 결과가 좋으면 다음에도 비슷하게 행동하고, 결과가 나쁘면 다른 방법을 시도하는 거죠.

 

보상(Reward) 시스템

강화학습의 핵심은 보상입니다.

게임을 할 때를 생각해보세요. 적을 물리치면 점수를 얻고, 죽으면 점수를 잃습니다. 플레이어는 점수를 최대한 높이려고 하죠. 강화학습 AI도 마찬가지입니다.

체스 AI를 학습시킨다면:

  • 상대의 말을 잡으면 → +10점
  • 내 말을 잃으면 → -10점
  • 체크메이트로 이기면 → +1000점
  • 지면 → -1000점

AI는 수천, 수만 번의 게임을 하면서 "어떤 수를 두면 점수가 올라가는지"를 학습합니다.

 

탐험(Exploration) vs 활용(Exploitation)

강화학습의 재미있는 딜레마가 있습니다.

레스토랑을 선택하는 상황을 상상해보세요:

  • 활용: 내가 좋아하는 걸 아는 식당에 계속 간다 (안전함)
  • 탐험: 새로운 식당을 시도해본다 (위험하지만 더 좋은 곳을 찾을 수도)

강화학습 AI도 이 균형을 맞춰야 합니다. 지금 아는 최선의 방법만 고집하면, 더 좋은 방법을 발견하지 못합니다. 하지만 너무 새로운 것만 시도하면 효율이 떨어지죠.

 

실제 활용 사례

알파고(AlphaGo): 바둑 AI입니다. 수백만 번의 자기 대국(self-play)을 통해 학습했습니다. 이기면 보상, 지면 처벌. 이 과정을 반복하며 세계 최고 수준에 도달했죠.

게임 AI: 아타리 게임, 스타크래프트 등을 플레이하는 AI가 강화학습으로 학습됩니다. 처음엔 형편없지만, 수천 번 게임을 하다 보면 프로 게이머 수준에 도달합니다.

자율주행: 차량이 도로에서 안전하게 주행하는 법을 배웁니다.

  • 차선을 잘 유지하면 → 보상
  • 다른 차와 충돌하면 → 큰 처벌
  • 목적지에 빠르게 도착하면 → 보상

시뮬레이션에서 수백만 킬로미터를 운전하며 학습합니다.

로봇 제어: 로봇이 물건을 집는 법을 배웁니다. 처음엔 서툴지만, 수천 번 시도하면서 점점 정확해집니다.

추천 시스템: YouTube나 TikTok 같은 플랫폼에서도 사용됩니다.

  • 사용자가 영상을 끝까지 보면 → 보상 (좋은 추천이었다)
  • 사용자가 건너뛰면 → 처벌 (나쁜 추천이었다)

 

왜 강화학습인가?

사람의 학습 방식과 가장 비슷하기 때문입니다.

자전거 타는 법을 배울 때를 떠올려보세요. 누가 "왼발을 23도 각도로, 오른손은 3kg의 힘으로..."라고 가르쳐주지 않았죠. 그냥 타보고, 넘어지고, 다시 타보고, 조금씩 나아지고... 이 과정을 반복했습니다.

강화학습도 바로 이런 방식입니다. 시도하고, 결과를 보고, 개선하고, 다시 시도하고. 이 과정을 수천, 수만 번 반복하면서 점점 나아집니다.


세 가지 학습 방식의 비교와 선택

이제 세 가지 학습 방식을 한눈에 비교해볼까요?

AI의 세가지 학습 방식
AI의 세가지 학습 방식

구분 지도학습 비지도학습 강화학습
데이터 정답(라벨) 필요 라벨 불필요 보상 신호 필요
학습 방식 정답을 보고 배움 패턴을 스스로 발견 시행착오로 배움
비유 선생님과 공부 혼자 탐험하기 강아지 훈련
예시 스팸 필터, 얼굴 인식, 질병 진단 고객 세분화, 추천 시스템 게임 AI, 자율주행, 로봇
장점 정확도가 높음 라벨링 비용 없음 복잡한 의사결정 가능
단점 라벨링 비용이 큼 결과 해석이 어려움 학습 시간이 오래 걸림

 

언제 어떤 방식을 쓸까?

지도학습은 이럴 때:

  • 정답을 명확히 알 수 있을 때
  • 충분한 라벨 데이터가 있을 때
  • 높은 정확도가 필요할 때

예: 의료 진단 (의사가 라벨링), 스팸 필터 (사용자가 신고)

비지도학습은 이럴 때:

  • 라벨을 붙이기 어렵거나 비용이 많이 들 때
  • 데이터의 숨겨진 패턴을 발견하고 싶을 때
  • 정답이 뭔지조차 모를 때

예: 고객 분석 (어떤 그룹이 있는지 모름), 이상 탐지 (어떤 게 이상한지 미리 모름)

강화학습은 이럴 때:

  • 연속적인 의사결정이 필요할 때
  • 환경과 상호작용하며 학습해야 할 때
  • 즉각적인 정답이 없고, 장기적 결과가 중요할 때

예: 게임 AI (수많은 수를 두며 학습), 자율주행 (계속 운전하며 학습)

 

혼합도 가능합니다

실제로는 여러 방식을 함께 쓰기도 합니다.

자율주행차는:

  • 지도학습으로 신호등, 표지판 인식을 배우고
  • 강화학습으로 주행 전략을 배우고
  • 비지도학습으로 이상 상황을 감지합니다

어떤 방식이 "가장 좋다"는 없습니다. 상황과 목적에 따라 적절한 방식을 선택하거나 혼합해서 사용하는 거죠.


마무리: 학습 방식을 이해하면 AI가 보인다

우리가 일상 생활에서 요리를 배우는데 선택할 수 있는 세 가지 방법을 떠올려봅시다:

  1. 지도학습 = 요리 학원에서 선생님께 배우기
  2. 비지도학습 = 여러 요리를 맛보며 스스로 깨닫기
  3. 강화학습 = 직접 요리하며 실패와 성공을 통해 배우기

AI도 마찬가지입니다. 상황에 따라 가장 적합한 학습 방식을 선택합니다.

오늘 우리는 머신러닝이 무엇이고, AI가 어떻게 학습하는지 알아봤습니다:

✅ 머신러닝 = 데이터로부터 학습하는 기술
✅ AI > 머신러닝 > 딥러닝 (포함 관계)
✅ 지도학습 = 정답을 보며 배우기
✅ 비지도학습 = 스스로 패턴 찾기
✅ 강화학습 = 시행착오로 배우기

다음 이야기

학습 방식을 이해했으니, 이제 좀 더 깊이 들어가 볼 차례입니다.

다음 글에서는 **"AI는 어떻게 학습할까? 알고리즘의 기초"**에 대해 알아보겠습니다. AI가 데이터를 보고 어떻게 패턴을 찾아내는지, 그 구체적인 메커니즘을 쉽게 풀어드릴게요.

반응형