본문 바로가기

AI

[AI 개념 정리 11] 좋은 AI vs 나쁜 AI, 모델 평가 방법 쉽게 이해하기

반응형

AI 모델 평가 방법 지표
AI 모델 평가 방법 지표

안녕하세요~ 솔루디오입니다^^

"이 AI, 정확도 95%래요!"

"오! 좋네요!"

정말 그럴까요?

95% 정확도의 AI가 있어요:

  • A 병원의 암 진단 AI: 95% ✅ (훌륭!)
  • B 회사의 암 진단 AI: 95% ❌ (쓸모없음!)

같은 정확도인데 왜?

정답은: **"정확도만으로는 부족하다"**입니다!

숫자 뒤에 숨은 진실

지난 글에서 프롬프트 엔지니어링을 배웠어요. AI를 잘 활용하는 방법이죠.

이번엔 AI를 평가하는 방법입니다!

좋은 AI인지 나쁜 AI인지, 어떻게 알 수 있을까요?

학생 성적을 평가할 때:

  • 시험 점수만 보면? → 불충분
  • 출석, 태도, 참여도도 봐야 → 종합 평가!

AI 평가도 똑같아요!


이전 글을 읽고 오시면 더 이해하기 좋아요^^


오늘 여러분이 배울 것들

이 글을 다 읽고 나면:

✅ 정확도가 뭔지 (그리고 함정!)
✅ 정밀도와 재현율 (더 섬세한 측정!)
✅ F1 Score (종합 점수!)
✅ 상황별 지표 선택법!

모두 시험 점수, 스팸 필터, 암 진단 같은 실생활 예시로 설명해드릴게요.

자, 그럼 AI 평가의 세계로 들어가볼까요? 📊


정확도 - 가장 기본적인 지표
정확도 - 가장 기본적인 지표

정확도 (Accuracy) - 가장 기본적인 지표

시험 점수처럼 간단하게

Accuracy (정확도) = 맞춘 비율

정확도 = (맞은 개수) / (전체 개수)

예:
100문제 중 90개 맞춤
정확도 = 90/100 = 90%

간단하죠?

 

양치기 소년 AI

하지만 함정이 있어요!

상황: 100일 동안 늑대 예측

  • 실제로 늑대가 온 날: 딱 1일
  • 나머지 99일: 늑대 안 옴

AI의 전략:

매일 "늑대 안 온다" 예측

결과:
- 99일: 맞춤 ✅
- 1일: 틀림 ❌

정확도 = 99/100 = 99%!

"와! 99% 정확도!"

하지만 이 AI는 완전히 쓸모없어요!

왜? 진짜 중요한 그 1일(늑대 온 날)을 놓쳤거든요! 🐺

 

암 진단 AI의 함정

더 심각한 예시:

상황: 100명 검사

  • 실제 암 환자: 5명
  • 건강한 사람: 95명

나쁜 AI의 전략:

모든 사람에게 "정상" 진단

결과:
- 95명: 맞춤 ✅ (건강한 사람)
- 5명: 틀림 ❌ (암 환자)

정확도 = 95/100 = 95%!

"95% 정확도네요!"

하지만 이 AI는 재앙입니다!

암 환자를 한 명도 못 찾았어요! 😱

 

정확도의 문제점

불균형 데이터에서 정확도는 거짓말을 해요:

99:1 비율 → 99% 정확도 (항상 다수 선택)
95:5 비율 → 95% 정확도 (항상 다수 선택)
90:10 비율 → 90% 정확도 (항상 다수 선택)

높은 정확도 ≠ 좋은 AI

더 섬세한 지표가 필요해요!


정밀도와 재현율 - 더 섬세한 측정
정밀도와 재현율 - 더 섬세한 측정

정밀도와 재현율 - 더 섬세한 측정

두 가지 관점

AI를 평가하는 두 가지 질문:

1. Precision (정밀도):

"AI가 '맞다'고 한 것 중 진짜 맞은 비율"
"AI를 얼마나 믿을 수 있나?"

2. Recall (재현율):

"진짜 맞는 것 중 AI가 찾아낸 비율"
"AI가 얼마나 빠짐없이 찾나?"

 

스팸 필터로 이해하기

이메일 스팸 필터를 떠올려보세요:

상황: 100개 이메일

  • 실제 스팸: 40개
  • 정상 메일: 60개

정밀도 중시 필터:

확실한 것만 스팸 처리

AI가 스팸이라고 판단: 20개
실제 스팸: 18개 ✅
정상 메일: 2개 ❌ (오탐)

정밀도 = 18/20 = 90%
"AI가 '스팸'이라면 90% 확률로 진짜 스팸"

재현율 = 18/40 = 45%
"실제 스팸 40개 중 18개만 잡음"

장점: 중요한 메일 안전 ✅
단점: 스팸 많이 통과 ❌

재현율 중시 필터:

의심되면 모두 스팸 처리

AI가 스팸이라고 판단: 50개
실제 스팸: 38개 ✅
정상 메일: 12개 ❌ (오탐!)

정밀도 = 38/50 = 76%
"AI가 '스팸'이라 해도 24%는 정상"

재현율 = 38/40 = 95%
"실제 스팸 40개 중 38개 잡음!"

장점: 스팸 거의 다 잡음 ✅
단점: 중요한 메일도 스팸 처리 ❌

여러분은 어떤 필터를 선호하시나요?

 

범죄자 검거로 이해하기

경찰이 범죄자를 잡을 때:

정밀도 중시 경찰:

확실한 증거 있을 때만 체포

장점:
- 무고한 사람 체포 안 함 ✅
- 오판 거의 없음 ✅

단점:
- 범죄자 일부 놓침 ❌
- 미제 사건 많음 ❌

재현율 중시 경찰:

의심되면 모두 체포

장점:
- 범죄자 거의 다 잡음 ✅
- 미제 사건 적음 ✅

단점:
- 무고한 사람도 체포됨 ❌
- 인권 침해 위험 ❌

균형이 중요합니다!

 

암 진단으로 이해하기

의료 AI의 경우:

정밀도 중시:

확실할 때만 "암" 진단

장점: 오진 적음 (불필요한 치료 방지)
단점: 일부 환자 놓침 (치료 시기 놓침)

재현율 중시:

의심되면 "암" 진단

장점: 환자 거의 다 찾음 (조기 발견)
단점: 정상인도 "암" 진단 (불안, 불필요한 검사)

의료에서는 보통 재현율 중시!

왜? **"놓치는 것이 최악"**이니까요!

 

Trade-off (상충 관계)

정밀도와 재현율은 시소 관계:

정밀도 ↑ → 재현율 ↓
(확실한 것만 잡으면 놓치는 게 많음)

재현율 ↑ → 정밀도 ↓
(많이 잡으면 오탐도 많음)

둘 다 높이기는 어려워요!


F1 Score와 Confusion Matrix
F1 Score와 Confusion Matrix

F1 Score와 Confusion Matrix

F1 Score - 종합 점수

F1 Score = 정밀도와 재현율의 조화 평균

학생 평가로 비유하면:

수학: 90점, 국어: 30점
평균: (90+30)/2 = 60점

하지만 불균형!

조화 평균은 불균형을 엄격히 평가:

F1 Score ≈ 45점

둘 다 잘해야 높은 점수!

F1 Score 계산

F1 = 2 × (정밀도 × 재현율) / (정밀도 + 재현율)

예시 1:
정밀도 = 90%, 재현율 = 90%
F1 = 2 × (0.9 × 0.9) / (0.9 + 0.9) = 0.90
→ 완벽한 균형! ✨

예시 2:
정밀도 = 90%, 재현율 = 30%
F1 = 2 × (0.9 × 0.3) / (0.9 + 0.3) = 0.45
→ 불균형하면 낮은 점수! ⚠️

예시 3:
정밀도 = 60%, 재현율 = 60%
F1 = 2 × (0.6 × 0.6) / (0.6 + 0.6) = 0.60
→ 둘 다 보통이면 보통 점수

F1 Score 해석

0.9~1.0: 매우 우수 ⭐⭐⭐⭐⭐
0.7~0.9: 우수 ⭐⭐⭐⭐
0.5~0.7: 보통 ⭐⭐⭐
0.5 미만: 개선 필요 ⭐⭐

 

Confusion Matrix - 혼동 행렬

성적표처럼 자세하게

                실제
           양성      음성
예측 양성   TP        FP
    음성   FN        TN

각 칸의 의미:

TP (True Positive):

"진짜 양성을 양성으로"
맞춤! ✅
예: 진짜 스팸을 스팸으로

TN (True Negative):

"진짜 음성을 음성으로"
맞춤! ✅
예: 정상 메일을 정상으로

FP (False Positive):

"가짜 양성" = 오탐
틀림! ❌
예: 정상 메일을 스팸으로

FN (False Negative):

"가짜 음성" = 놓침
틀림! ❌
예: 스팸을 정상으로

 

실전 예시

스팸 필터 평가:

이메일 100개 검사:

실제 스팸: 40개
실제 정상: 60개

AI 결과:
TP = 35 (스팸 → 스팸) ✅
FN = 5  (스팸 → 정상) ❌ 놓침
FP = 8  (정상 → 스팸) ❌ 오탐
TN = 52 (정상 → 정상) ✅

정확도 = (35+52)/100 = 87%
정밀도 = 35/(35+8) = 81%
재현율 = 35/(35+5) = 88%
F1 Score = 0.84

종합 평가: 우수! ⭐⭐⭐⭐


상황별 지표 선택하기
상황별 지표 선택하기

상황별 지표 선택하기

재현율 중시 (놓치면 안 될 때)

놓치는 것이 최악인 상황:

1. 의료 진단:

암 진단 AI
→ 한 명이라도 놓치면 안 됨
→ 재현율 최우선!
→ 오진은 재검사로 해결

"놓치면 생명이 위험"

2. 사기 거래 탐지:

금융 사기 AI
→ 사기를 놓치면 큰 손실
→ 재현율 최우선!
→ 오탐은 확인 과정으로 해결

"놓치면 돈 날림"

3. 테러 위협 감지:

보안 AI
→ 위협을 놓치면 재앙
→ 재현율 최우선!
→ 오탐은 추가 조사로 해결

"놓치면 생명이 위험"

4. 결함 제품 검사:

품질 관리 AI
→ 불량품이 시중에 나가면 큰일
→ 재현율 최우선!
→ 오탐은 재검사로 해결

"놓치면 회사 이미지 타격"

 

정밀도 중시 (오탐이 치명적일 때)

잘못 판단하면 큰 문제인 상황:

1. 스팸 필터:

이메일 필터 AI
→ 중요한 메일을 스팸 처리하면 안 됨
→ 정밀도 최우선!
→ 스팸 일부 통과는 괜찮음

"오탐이 더 문제"

2. 범죄자 검거:

범죄 예측 AI
→ 무고한 사람 체포하면 안 됨
→ 정밀도 최우선!
→ 일부 범죄자 놓치는 건 어쩔 수 없음

"무고한 사람 피해 방지"

3. 불량품 판정:

제조 AI
→ 정상 제품을 불량으로 판정하면 손실
→ 정밀도 최우선!
→ 일부 불량품 통과는 나중에 잡음

"멀쩡한 제품 버리면 손해"

4. 입학 심사:

입학 AI
→ 부적격자를 합격시키면 안 됨
→ 정밀도 최우선!
→ 일부 우수한 학생 불합격은 어쩔 수 없음

"질 관리가 중요"

 

F1 균형 (둘 다 중요)

정밀도와 재현율 모두 중요한 상황:

1. 고객 이탈 예측:

이탈 예측 AI
→ 이탈 고객 찾아야 함 (재현율)
→ 정상 고객에게 할인 제공하면 손해 (정밀도)
→ 둘 다 중요!

F1 Score로 평가

2. 질병 예측:

당뇨병 예측 AI
→ 환자 찾아야 함 (재현율)
→ 정상인에게 불안 주면 안 됨 (정밀도)
→ 둘 다 중요!

F1 Score로 평가

3. 추천 시스템:

상품 추천 AI
→ 좋아할 상품 많이 추천 (재현율)
→ 싫어할 상품 추천하면 안 됨 (정밀도)
→ 둘 다 중요!

F1 Score로 평가

 

실전 의사결정 가이드

질문으로 판단하기:

Q1: 놓치면 큰일나나요?
→ Yes: 재현율 중시

Q2: 오탐이 치명적인가요?
→ Yes: 정밀도 중시

Q3: 둘 다 중요한가요?
→ Yes: F1 Score로 균형

Q4: 데이터가 불균형한가요?
→ Yes: 정확도만으로는 부족

AI 평가의 지혜

오늘 우리는 AI를 제대로 평가하는 방법을 배웠습니다.

정확도 (Accuracy)

  • 가장 기본적
  • 맞춘 비율
  • 불균형 데이터에 취약
  • 단독 사용 위험

정밀도 (Precision)

  • "맞다고 한 것 중 진짜 비율"
  • 오탐 최소화
  • 신뢰성 중시
  • 스팸 필터, 범죄 검거

재현율 (Recall)

  • "진짜 중에 찾은 비율"
  • 놓침 최소화
  • 완전성 중시
  • 암 진단, 사기 탐지

F1 Score

  • 조화 평균
  • 균형 평가
  • 0~1 사이 (1이 최고)
  • 종합 지표

Confusion Matrix

  • 상세 성적표
  • TP, TN, FP, FN
  • 한눈에 파악
  • 심층 분석

 

평가 지표 선택 원칙

1. 상황을 이해하라

무엇이 더 중요한가?
놓침? 오탐?

2. 하나만 보지 마라

여러 지표를 함께 봐야
진짜 성능을 알 수 있음

3. 실전에서 테스트하라

숫자만 보지 말고
실제로 써보기

4. 계속 개선하라

완벽한 AI는 없음
지속적인 모니터링

 

현실 세계에서

실제 AI 프로젝트에서:

1. 목표 설정
   "무엇을 최소화할까?"
   
2. 지표 선택
   "어떻게 측정할까?"
   
3. 모델 평가
   "충분히 좋은가?"
   
4. 실전 테스트
   "실제로 작동하나?"
   
5. 지속 개선
   "더 나아질 수 있나?"

 


다음 이야기

AI를 평가하는 방법을 배웠으니...

처음부터 학습할 필요가 있을까요?

다음 글에서는 **전이학습(Transfer Learning)**에 대해 알아보겠습니다:

  • 바퀴를 다시 발명하지 마라
  • 사전학습 모델 활용하기
  • Fine-tuning의 마법
  • 적은 데이터로도 좋은 성능

실전 효율의 비밀, 기대하세요!

좋은 평가가 좋은 AI를 만듭니다! 📊

반응형