작성자: admin 작성일시: 2016-05-03 11:23:56 조회수: 634 다운로드: 43
카테고리: 기초 수학 태그목록:

베이즈 정리와 분류 문제

베이즈 정리는 머신 러닝 중 분류(classification) 문제를 해결하는데 사용될 수 있다. 분류 문제는 입력 자료로 부터 카테고리 값인 출력 자표를 예측(prediction)하는 문제이다. 다음과 같은 문제는 분류 문제의 한 예이다.

  • 붉은 상자에는 사과가 2개, 오렌지가 6개가 있다.
  • 푸른 상자에는 사과가 3개, 오렌지가 1개가 있다.
  • 어떤 상자인지 모르고 과일을 하나 꺼냈는데 오렌지였다.
  • 과일을 꺼낸 상자는 붉은 상자인가 푸른 상자인가?

이 문제의 답은 누구나 직관적으로 알 수 있다. 오렌지가 더 많은 상자가 붉은 상자이기 때문에 꺼낸 과일이 오렌지라면 상자는 붉은 상자일 가능성이 높을 것이다. 그 가능성 즉, 확률을 수치화해보자.

이 문제를 확률론의 용어로 다시 정리한다.

  • 꺼낸 과일이 사과인 사건 $X=A$
  • 꺼낸 과일이 오렌지인 사건 $X=O$
  • 선택한 상자가 붉은 상자인 사건 $Y=R$
  • 선택한 상자가 푸른 상자인 사건 $Y=B$

우리가 원하는 확률은 오렌지를 꺼냈을 경우에 선택할 상자가 붉은 상자일 확률이므로 다음과 같은 조건부 확률이다.

$$ P(Y=R|X=O) $$

이 값을 계산하면 다음과 같다.

$$ \begin{eqnarray} P(Y=R|X=O) &=& \dfrac{P(X=O|Y=R)P(Y=R)}{P(X=O)} \\ &=& \dfrac{P(X=O|Y=R)P(Y=R)}{P(X=O|Y=R)P(Y=R) + P(X=O|Y=B)P(Y=B)} \\ &=& \dfrac{6/8 \cdot 1/2}{6/8 \cdot 1/2 + 1/4 \cdot 1/2 } \\ &=& \dfrac{6/8}{6/8 + 1/4} = 3/4\\ \end{eqnarray} $$

상자는 두 개 뿐이므로 선택할 상자가 푸른 상자인 확률은 $ 1 - P(Y=R|X=O) $이다.

$$ P(Y=B|X=O) = 1 - P(Y=R|X=O) = 1/4 $$

이 방식으로 분류 문제를 풀기 위해서는 각각의 $Y$ 값에 대한 $X$값의 확률 분포, 즉 우도(likelihood)를 알고 있어야 한다. 이렇게 베이즈 정리와 우도(likelihood)를 이용하여 분류 문제를 푸는 방법을 생성론적 방법(generattive method)라고 한다.

질문/덧글

likelihood가 확률분포인가요? 531c*** 2016년 7월 8일 12:31 오후

마지막 줄에 보면 likelihood에 대해 "각각의 Y 값에 대한 X 값의 확률 분포"라고 설명해주셨는데, 이게 정확한 표현인지 궁금합니다.
그리고 그 아랫줄에 철자가 오타가 난 것 같습니다. 언제나 좋은 강의 해주셔서 감사합니다.

답변: likelihood가 확률분포인가요? 관리자 2016년 7월 10일 6:56 오후

1. 우도(likelihood)는 우리가 원하는 최종 조건부 확률이 $P(Y|X)$ 일 때 최종 확률 변수와 조건부 확률 변수가 바뀐 $P(X|Y)$ 를 뜻합니다. 모수 추정 문제에서는 $X$가 아닌 $\theta$가 들어가기도 합니다.
2. 오타 수정하였습니다. 지적 감사합니다.