
안녕하세요~ 솔루디오입니다^^
"이 AI, 정확도 95%래요!"
"오! 좋네요!"
정말 그럴까요?
95% 정확도의 AI가 있어요:
- A 병원의 암 진단 AI: 95% ✅ (훌륭!)
- B 회사의 암 진단 AI: 95% ❌ (쓸모없음!)
같은 정확도인데 왜?
정답은: **"정확도만으로는 부족하다"**입니다!
숫자 뒤에 숨은 진실
지난 글에서 프롬프트 엔지니어링을 배웠어요. AI를 잘 활용하는 방법이죠.
이번엔 AI를 평가하는 방법입니다!
좋은 AI인지 나쁜 AI인지, 어떻게 알 수 있을까요?
학생 성적을 평가할 때:
- 시험 점수만 보면? → 불충분
- 출석, 태도, 참여도도 봐야 → 종합 평가!
AI 평가도 똑같아요!
이전 글을 읽고 오시면 더 이해하기 좋아요^^
- [AI 개념 정리 10] 프롬프트 엔지니어링이란? 이것만 이해를 하세요
- [AI 개념 정리 9] 게임을 정복한 AI, 강화학습이란? AlphaGo 쉽게 이해하기
- [AI 개념 정리 8] GPT, Claude는 어떻게 작용하나요? 대규모 언어 모델 쉽게 이해하기
- [AI 개념 정리 7] ChatGPT의 핵심, 트랜스포머란? Attention 메커니즘 쉽게 이해 하기
- [AI 개념 정리 6] AI는 어떻게 똑똑해질까? 학습의 비밀 쉽게 이해하기(경사하강법, 에포크, 배치)
- [AI 개념 정리 5] 딥러닝이란? '딥'한 이유와 CNN, RNN 쉽게 이해하기
- [AI 개념 정리 4] 인공 신경망(Neural Network 이란? 회사 조직 구조, 채용 결정 예시를 통해 AI 쉽게 이해하기(뉴런, 신경망)
- [AI 개념 정리 3] AI 알고리즘 원리, 넷플릿스와 요리 레시피로 5분 만에 이해하기(패턴인식, 의사결정트리)
- [AI 개념 정리 2] AI는 어떻게 공부할까? 넷플릭스와 알파고로 배우는 머신러닝 원리
- [AI 개념 정리 1] AI 종류 완벽 정리: 약한 AI와 강한 AI 차이점은? (feat. ChatGPT)
오늘 여러분이 배울 것들
이 글을 다 읽고 나면:
✅ 정확도가 뭔지 (그리고 함정!)
✅ 정밀도와 재현율 (더 섬세한 측정!)
✅ F1 Score (종합 점수!)
✅ 상황별 지표 선택법!
모두 시험 점수, 스팸 필터, 암 진단 같은 실생활 예시로 설명해드릴게요.
자, 그럼 AI 평가의 세계로 들어가볼까요? 📊

정확도 (Accuracy) - 가장 기본적인 지표
시험 점수처럼 간단하게
Accuracy (정확도) = 맞춘 비율
정확도 = (맞은 개수) / (전체 개수)
예:
100문제 중 90개 맞춤
정확도 = 90/100 = 90%
간단하죠?
양치기 소년 AI
하지만 함정이 있어요!
상황: 100일 동안 늑대 예측
- 실제로 늑대가 온 날: 딱 1일
- 나머지 99일: 늑대 안 옴
AI의 전략:
매일 "늑대 안 온다" 예측
결과:
- 99일: 맞춤 ✅
- 1일: 틀림 ❌
정확도 = 99/100 = 99%!
"와! 99% 정확도!"
하지만 이 AI는 완전히 쓸모없어요!
왜? 진짜 중요한 그 1일(늑대 온 날)을 놓쳤거든요! 🐺
암 진단 AI의 함정
더 심각한 예시:
상황: 100명 검사
- 실제 암 환자: 5명
- 건강한 사람: 95명
나쁜 AI의 전략:
모든 사람에게 "정상" 진단
결과:
- 95명: 맞춤 ✅ (건강한 사람)
- 5명: 틀림 ❌ (암 환자)
정확도 = 95/100 = 95%!
"95% 정확도네요!"
하지만 이 AI는 재앙입니다!
암 환자를 한 명도 못 찾았어요! 😱
정확도의 문제점
불균형 데이터에서 정확도는 거짓말을 해요:
99:1 비율 → 99% 정확도 (항상 다수 선택)
95:5 비율 → 95% 정확도 (항상 다수 선택)
90:10 비율 → 90% 정확도 (항상 다수 선택)
높은 정확도 ≠ 좋은 AI
더 섬세한 지표가 필요해요!

정밀도와 재현율 - 더 섬세한 측정
두 가지 관점
AI를 평가하는 두 가지 질문:
1. Precision (정밀도):
"AI가 '맞다'고 한 것 중 진짜 맞은 비율"
"AI를 얼마나 믿을 수 있나?"
2. Recall (재현율):
"진짜 맞는 것 중 AI가 찾아낸 비율"
"AI가 얼마나 빠짐없이 찾나?"
스팸 필터로 이해하기
이메일 스팸 필터를 떠올려보세요:
상황: 100개 이메일
- 실제 스팸: 40개
- 정상 메일: 60개
정밀도 중시 필터:
확실한 것만 스팸 처리
AI가 스팸이라고 판단: 20개
실제 스팸: 18개 ✅
정상 메일: 2개 ❌ (오탐)
정밀도 = 18/20 = 90%
"AI가 '스팸'이라면 90% 확률로 진짜 스팸"
재현율 = 18/40 = 45%
"실제 스팸 40개 중 18개만 잡음"
장점: 중요한 메일 안전 ✅
단점: 스팸 많이 통과 ❌
재현율 중시 필터:
의심되면 모두 스팸 처리
AI가 스팸이라고 판단: 50개
실제 스팸: 38개 ✅
정상 메일: 12개 ❌ (오탐!)
정밀도 = 38/50 = 76%
"AI가 '스팸'이라 해도 24%는 정상"
재현율 = 38/40 = 95%
"실제 스팸 40개 중 38개 잡음!"
장점: 스팸 거의 다 잡음 ✅
단점: 중요한 메일도 스팸 처리 ❌
여러분은 어떤 필터를 선호하시나요?
범죄자 검거로 이해하기
경찰이 범죄자를 잡을 때:
정밀도 중시 경찰:
확실한 증거 있을 때만 체포
장점:
- 무고한 사람 체포 안 함 ✅
- 오판 거의 없음 ✅
단점:
- 범죄자 일부 놓침 ❌
- 미제 사건 많음 ❌
재현율 중시 경찰:
의심되면 모두 체포
장점:
- 범죄자 거의 다 잡음 ✅
- 미제 사건 적음 ✅
단점:
- 무고한 사람도 체포됨 ❌
- 인권 침해 위험 ❌
균형이 중요합니다!
암 진단으로 이해하기
의료 AI의 경우:
정밀도 중시:
확실할 때만 "암" 진단
장점: 오진 적음 (불필요한 치료 방지)
단점: 일부 환자 놓침 (치료 시기 놓침)
재현율 중시:
의심되면 "암" 진단
장점: 환자 거의 다 찾음 (조기 발견)
단점: 정상인도 "암" 진단 (불안, 불필요한 검사)
의료에서는 보통 재현율 중시!
왜? **"놓치는 것이 최악"**이니까요!
Trade-off (상충 관계)
정밀도와 재현율은 시소 관계:
정밀도 ↑ → 재현율 ↓
(확실한 것만 잡으면 놓치는 게 많음)
재현율 ↑ → 정밀도 ↓
(많이 잡으면 오탐도 많음)
둘 다 높이기는 어려워요!

F1 Score와 Confusion Matrix
F1 Score - 종합 점수
F1 Score = 정밀도와 재현율의 조화 평균
학생 평가로 비유하면:
수학: 90점, 국어: 30점
평균: (90+30)/2 = 60점
하지만 불균형!
조화 평균은 불균형을 엄격히 평가:
F1 Score ≈ 45점
둘 다 잘해야 높은 점수!
F1 Score 계산
F1 = 2 × (정밀도 × 재현율) / (정밀도 + 재현율)
예시 1:
정밀도 = 90%, 재현율 = 90%
F1 = 2 × (0.9 × 0.9) / (0.9 + 0.9) = 0.90
→ 완벽한 균형! ✨
예시 2:
정밀도 = 90%, 재현율 = 30%
F1 = 2 × (0.9 × 0.3) / (0.9 + 0.3) = 0.45
→ 불균형하면 낮은 점수! ⚠️
예시 3:
정밀도 = 60%, 재현율 = 60%
F1 = 2 × (0.6 × 0.6) / (0.6 + 0.6) = 0.60
→ 둘 다 보통이면 보통 점수
F1 Score 해석
0.9~1.0: 매우 우수 ⭐⭐⭐⭐⭐
0.7~0.9: 우수 ⭐⭐⭐⭐
0.5~0.7: 보통 ⭐⭐⭐
0.5 미만: 개선 필요 ⭐⭐
Confusion Matrix - 혼동 행렬
성적표처럼 자세하게
실제
양성 음성
예측 양성 TP FP
음성 FN TN
각 칸의 의미:
TP (True Positive):
"진짜 양성을 양성으로"
맞춤! ✅
예: 진짜 스팸을 스팸으로
TN (True Negative):
"진짜 음성을 음성으로"
맞춤! ✅
예: 정상 메일을 정상으로
FP (False Positive):
"가짜 양성" = 오탐
틀림! ❌
예: 정상 메일을 스팸으로
FN (False Negative):
"가짜 음성" = 놓침
틀림! ❌
예: 스팸을 정상으로
실전 예시
스팸 필터 평가:
이메일 100개 검사:
실제 스팸: 40개
실제 정상: 60개
AI 결과:
TP = 35 (스팸 → 스팸) ✅
FN = 5 (스팸 → 정상) ❌ 놓침
FP = 8 (정상 → 스팸) ❌ 오탐
TN = 52 (정상 → 정상) ✅
정확도 = (35+52)/100 = 87%
정밀도 = 35/(35+8) = 81%
재현율 = 35/(35+5) = 88%
F1 Score = 0.84
종합 평가: 우수! ⭐⭐⭐⭐

상황별 지표 선택하기
재현율 중시 (놓치면 안 될 때)
놓치는 것이 최악인 상황:
1. 의료 진단:
암 진단 AI
→ 한 명이라도 놓치면 안 됨
→ 재현율 최우선!
→ 오진은 재검사로 해결
"놓치면 생명이 위험"
2. 사기 거래 탐지:
금융 사기 AI
→ 사기를 놓치면 큰 손실
→ 재현율 최우선!
→ 오탐은 확인 과정으로 해결
"놓치면 돈 날림"
3. 테러 위협 감지:
보안 AI
→ 위협을 놓치면 재앙
→ 재현율 최우선!
→ 오탐은 추가 조사로 해결
"놓치면 생명이 위험"
4. 결함 제품 검사:
품질 관리 AI
→ 불량품이 시중에 나가면 큰일
→ 재현율 최우선!
→ 오탐은 재검사로 해결
"놓치면 회사 이미지 타격"
정밀도 중시 (오탐이 치명적일 때)
잘못 판단하면 큰 문제인 상황:
1. 스팸 필터:
이메일 필터 AI
→ 중요한 메일을 스팸 처리하면 안 됨
→ 정밀도 최우선!
→ 스팸 일부 통과는 괜찮음
"오탐이 더 문제"
2. 범죄자 검거:
범죄 예측 AI
→ 무고한 사람 체포하면 안 됨
→ 정밀도 최우선!
→ 일부 범죄자 놓치는 건 어쩔 수 없음
"무고한 사람 피해 방지"
3. 불량품 판정:
제조 AI
→ 정상 제품을 불량으로 판정하면 손실
→ 정밀도 최우선!
→ 일부 불량품 통과는 나중에 잡음
"멀쩡한 제품 버리면 손해"
4. 입학 심사:
입학 AI
→ 부적격자를 합격시키면 안 됨
→ 정밀도 최우선!
→ 일부 우수한 학생 불합격은 어쩔 수 없음
"질 관리가 중요"
F1 균형 (둘 다 중요)
정밀도와 재현율 모두 중요한 상황:
1. 고객 이탈 예측:
이탈 예측 AI
→ 이탈 고객 찾아야 함 (재현율)
→ 정상 고객에게 할인 제공하면 손해 (정밀도)
→ 둘 다 중요!
F1 Score로 평가
2. 질병 예측:
당뇨병 예측 AI
→ 환자 찾아야 함 (재현율)
→ 정상인에게 불안 주면 안 됨 (정밀도)
→ 둘 다 중요!
F1 Score로 평가
3. 추천 시스템:
상품 추천 AI
→ 좋아할 상품 많이 추천 (재현율)
→ 싫어할 상품 추천하면 안 됨 (정밀도)
→ 둘 다 중요!
F1 Score로 평가
실전 의사결정 가이드
질문으로 판단하기:
Q1: 놓치면 큰일나나요?
→ Yes: 재현율 중시
Q2: 오탐이 치명적인가요?
→ Yes: 정밀도 중시
Q3: 둘 다 중요한가요?
→ Yes: F1 Score로 균형
Q4: 데이터가 불균형한가요?
→ Yes: 정확도만으로는 부족
AI 평가의 지혜
오늘 우리는 AI를 제대로 평가하는 방법을 배웠습니다.
✅ 정확도 (Accuracy)
- 가장 기본적
- 맞춘 비율
- 불균형 데이터에 취약
- 단독 사용 위험
✅ 정밀도 (Precision)
- "맞다고 한 것 중 진짜 비율"
- 오탐 최소화
- 신뢰성 중시
- 스팸 필터, 범죄 검거
✅ 재현율 (Recall)
- "진짜 중에 찾은 비율"
- 놓침 최소화
- 완전성 중시
- 암 진단, 사기 탐지
✅ F1 Score
- 조화 평균
- 균형 평가
- 0~1 사이 (1이 최고)
- 종합 지표
✅ Confusion Matrix
- 상세 성적표
- TP, TN, FP, FN
- 한눈에 파악
- 심층 분석
평가 지표 선택 원칙
1. 상황을 이해하라
무엇이 더 중요한가?
놓침? 오탐?
2. 하나만 보지 마라
여러 지표를 함께 봐야
진짜 성능을 알 수 있음
3. 실전에서 테스트하라
숫자만 보지 말고
실제로 써보기
4. 계속 개선하라
완벽한 AI는 없음
지속적인 모니터링
현실 세계에서
실제 AI 프로젝트에서:
1. 목표 설정
"무엇을 최소화할까?"
2. 지표 선택
"어떻게 측정할까?"
3. 모델 평가
"충분히 좋은가?"
4. 실전 테스트
"실제로 작동하나?"
5. 지속 개선
"더 나아질 수 있나?"
다음 이야기
AI를 평가하는 방법을 배웠으니...
처음부터 학습할 필요가 있을까요?
다음 글에서는 **전이학습(Transfer Learning)**에 대해 알아보겠습니다:
- 바퀴를 다시 발명하지 마라
- 사전학습 모델 활용하기
- Fine-tuning의 마법
- 적은 데이터로도 좋은 성능
실전 효율의 비밀, 기대하세요!
좋은 평가가 좋은 AI를 만듭니다! 📊
'AI' 카테고리의 다른 글
| [AI 개념 정리 13] 텍스트와 이미지를 함께 이해하는 AI, 멀티모달 AI란? 사람처럼 보고, 듣고, 읽는 AI (3) | 2025.12.23 |
|---|---|
| [AI 개념 정리 12] 처음부터 다시 AI 모델 개발? NO! 이미 학습된 AI 활용하기, 전이학습(Transfer Learning) (0) | 2025.12.18 |
| [프롬프트 엔지니어링 실전편] "글 써줘"는 이제 그만! 복사만 하면 되는 상황별 프롬프트 템플릿 14개 (0) | 2025.12.12 |
| [AI 개념 정리 10] 프롬프트 엔지니어링이란? 이것만 이해를 하세요 (0) | 2025.12.11 |
| [AI 개념 정리 9] 게임을 정복한 AI, 강화학습이란? AlphaGo 쉽게 이해하기 (0) | 2025.12.08 |