작성자: admin 작성일시: 2016-05-03 11:23:56 조회수: 1113 다운로드: 80
카테고리: 기초 수학 태그목록:

베이즈 정리와 분류 문제

베이즈 정리는 머신 러닝 중 분류(classification) 문제를 해결하는데 사용될 수 있다. 분류 문제는 입력 자료로 부터 카테고리 값인 출력 자표를 예측(prediction)하는 문제이다. 다음과 같은 문제는 분류 문제의 한 예이다.

과일 선택 문제

어떤 과일 가게에서 사과와 오렌지를 팔고 있다. 사과와 오렌지는 Red 농장과 Blue 농장에서 공급받는다.

어느날 Red 농장에서 붉은 상자에 사과 2개, 오렌지 6개를 담아서 보냈다. Blue 농장에서는 푸른 상자에 사과가 3, 오렌지가 1개를 담아서 공급했다.

이 과일을 받은 과일 가게 주인은 이 과일들을 모두 상자에서 꺼내어 늘어놓고 판매를 시작하였다. 이 때 어떤 손님이 와서 오렌지를 하나 선택했다. 이 오렌지는 Red 농장에서 온 것일까, 아니면 Blue 농장에서 온 것일까?

이 문제의 답은 누구나 직관적으로 알 수 있다. 오렌지가 더 많은 상자가 붉은 상자(Red 농장)이기 때문에 꺼낸 과일이 오렌지라면 상자는 원산지가 Red 농장일 가능성이 높을 것이다. 그 가능성 즉, 확률을 수치화해보자.

이 문제를 확률론의 용어로 다시 정리한다.

  • 선택한 과일이 사과인 사건 $X=A$
  • 선택한 과일이 오렌지인 사건 $X=O$
  • 선택한 과일이 Red 농장에서 왔을 사건 $Y=R$
  • 선택한 과일이 Blue 농장에서 왔을 사건 $Y=B$

우리가 원하는 확률은 오렌지를 선택한 경우에 원산지가Red 농장일 확률이므로 다음과 같은 조건부 확률이다.

$$ P(Y=R|X=O) $$

이 조건부 확률 값을 구하기 위해 우선 다음과 같은 확률 값을 구한다.

전체 샘플 12개 중에서 Red 농장에서 온 샘플이 8개이므로

$$ P(Y=R) = \dfrac{8}{8 + 4} = \dfrac{8}{12} $$

전체 샘플 12개 중에서 Blue 농장에서 온 샘플이 4개이므로

$$ P(Y=B) = \dfrac{4}{8 + 4} = \dfrac{4}{12} $$

Red 농장의 샘플 8개 중에서 오렌지가 6개이므로

$$ P(X=O | Y=R) = \dfrac{6}{2 + 6} = \dfrac{6}{8} $$

Blue 농장의 샘플 4개 중에서 오렌지가 1개이므로

$$ P(X=O | Y=B) = \dfrac{1}{1 + 3} = \dfrac{1}{4} $$

이 값과 베이즈 정리를 이용하여 조건부 확률을 계산하면 다음과 같다.

$$ \begin{eqnarray} P(Y=R|X=O) &=& \dfrac{P(X=O|Y=R)P(Y=R)}{P(X=O)} \\ &=& \dfrac{P(X=O|Y=R)P(Y=R)}{P(X=O|Y=R)P(Y=R) + P(X=O|Y=B)P(Y=B)} \\ &=& \dfrac{6/8 \cdot 8/12}{6/8 \cdot 8/12 + 1/4 \cdot 4/12 } \\ &=& \dfrac{1/2}{1/2 + 1/12} = 6/7\\ \end{eqnarray} $$

농장이 두 개 뿐이므로 원상지가 Blue 농장인 확률은 $ 1 - P(Y=R|X=O) $이다.

$$ P(Y=B|X=O) = 1 - P(Y=R|X=O) = 1/7 $$

답이 Red 농장일 확률이 $6/7$, Blue 농장일 확률이 $1/7$이므로 예측 결과는 Red 농장이다.

이러한 방식으로 분류 문제를 풀기 위해서는 각각의 출력 카테고리 $Y$ 에 대한 특징값 $X$의 분포, 즉 우도(likelihood)를 알고 있어야 한다. 이렇게 베이즈 정리와 우도(likelihood)를 이용하여 분류 문제를 푸는 방법을 생성론적 방법(generative method)라고 한다.

질문/덧글

likelihood가 확률분포인가요? 531c*** 2016년 7월 8일 12:31 오후

마지막 줄에 보면 likelihood에 대해 "각각의 Y 값에 대한 X 값의 확률 분포"라고 설명해주셨는데, 이게 정확한 표현인지 궁금합니다.
그리고 그 아랫줄에 철자가 오타가 난 것 같습니다. 언제나 좋은 강의 해주셔서 감사합니다.

답변: likelihood가 확률분포인가요? 관리자 2016년 7월 10일 6:56 오후

1. 우도(likelihood)는 우리가 원하는 최종 조건부 확률이 $P(Y|X)$ 일 때 최종 확률 변수와 조건부 확률 변수가 바뀐 $P(X|Y)$ 를 뜻합니다. 모수 추정 문제에서는 $X$가 아닌 $\theta$가 들어가기도 합니다.
2. 오타 수정하였습니다. 지적 감사합니다.

사용자에 의해 삭제되었습니다. wonk*** 2017년 2월 9일 5:38 오후

사용자에 의해 삭제되었습니다.

어떤 상자인지 모르는데 붉은색 상자를 고를 확률은, P(Y=R) = 1/2 아닌가요? wonk*** 2017년 2월 9일 9:33 오후

"전체 샘플 12개 중에서 붉은 상자에 있는 샘플이 8개이므로 P(Y=R)=8/12"

왜 이렇게 푸시는지 이해가 안됩니다.

답변: 어떤 상자인지 모르는데 붉은색 상자를 고를 확률은, P(Y=R) = 1/2 아닌가요? 관리자 2017년 2월 10일 7:03 오전

문제를 이렇게 바꿔서 생각해 보세요.

어느 그룹에 남자(붉은 색 상자에 있는 샘플)이 1명이고 여자(푸른색 상자에 있는 샘플)이 1000명입니다.
이 그룹에서 아무나 한 명을 뽑았을 때 남자일 확률(붉은색 상자에 있는 샘플일 확률)과 여자일 확률(푸른색 상자에 있는 샘플일 확률)을 계산해 보세요.

답변: 답변: 어떤 상자인지 모르는데 붉은색 상자를 고를 확률은, P(Y=R) = 1/2 아닌가요? wonk*** 2017년 2월 10일 9:27 오전

강사님 , 지금 말씀하신 문제는 서로 다른 문제아닌가요?
어느 그룹에 남자 1명, 여자 1000명이 있다면 같은 그룹에 있는 상황입니다.
그런데 빨간 상자, 푸른 상자는 서로 다른 그룹입니다. 똑같은 상황을 세팅하려면 빨간 상자에 남자 1명, 파란 상자에 여자 1000명이 있는 상황을 가정해야 하지 않을까요?

답변: 답변: 답변: 어떤 상자인지 모르는데 붉은색 상자를 고를 확률은, P(Y=R) = 1/2 아닌가요? 관리자 2017년 2월 10일 12:32 오후

이해하기 힘들어 하시는 것 같아서 본문의 문제 서술을 다음과 같이 바꾸도록 하겠습니다.

"붉은 상자, 푸른 상자가 아니라 Red 지역에서 생산된 과일, Blue 지역에서 생산된 과일이 위와 같이 있을 때 이를 상자에서 꺼내어 매장에 한꺼번에 늘어놓고 전시하였다. 어떤 손님이 이 과일들 중에서 오렌지를 하나 고른다. 이 오렌지는 어느 지역에서 생산된 과일인가"

이렇게 바꾸면 이해하실 수 있나요?

답변: 답변: 답변: 답변: 어떤 상자인지 모르는데 붉은색 상자를 고를 확률은, P(Y=R) = 1/2 아닌가요? wonk*** 2017년 2월 11일 11:41 오전

제가 제대로 이해한게 맞군요.

"이 과일들을 모두 상자에서 꺼내어 늘어놓고 판매를 시작하였다."
이 서술을 보니, 강사님이 P(Y=R) = 8/12 라고 하신 것은 구분된 red, blue가 아니라 한 곳에 늘어놓고 뽑는 상황을 가정하신거네요.

이전 설명에는 저런 서술이 없었기에 '구분된 red, blue를 보지 못한채 뽑는 상황'을 생각했습니다.
설명 감사합니다~