작성자: admin 작성일시: 2016-05-03 10:16:26 조회수: 851 다운로드: 42
카테고리: 기초 수학 태그목록:

베이즈 정리

베이즈 정리는 사건 $B$가 발생함으로써 사건 $A$의 확률이 어떻게 변화하는지를 표현한 정리이다.

사건 $B$가 발생하였다는 것은 우리가 찾는 샘플이 사건 $B$라는 부분집합에 포함되어 있다는 새로운 정보를 취득하였다는 의미이다. 따라서 베이즈 정리는 새로운 정보가 기존의 의사 결정에 어떻게 영향을 미치는지를 설명하고 있다.

베이즈 정리는 다음과 같은 수식으로 나타난다.

$$ P(A|B) = \dfrac{P(B|A)P(A)}{P(B)} $$

여기에서 $P(A)$는 사전 확률(prior)이라고 하며 사건 B가 발생하기 전에 가지고 있던 사건 A의 확률이다. 만약 사건 B가 발생하게 되면 이 정보를 반영하여 사건 $A$의 확률은 $P(A|B)$라는 값으로 변하게 되며 이를 사후 확률(posterior)이라고 한다.

사후 확률 값은 기존 확률값에 $P(B|A)/P(B)$라는 값을 곱하면 얻을 수 있다. 곱하는 $P(B|A)$는 우도(likelihood)라고 하고 나누는 $P(B)$는 정규화 상수(normalizing constant)라고 한다.

베이즈 정리
$$ P(A|B) = \dfrac{P(B|A)P(A)}{P(B)} $$
  • $P(A|B)$: 사후 확률(posterior). 사건 B가 발생한 후 갱신된 사건 A의 확률
  • $P(A)$: 사전 확률(prior). 사건 B가 발생하기 전에 가지고 있던 사건 A의 확률
  • $P(B|A)$: 우도(likelihood). 사건 A가 발생한 경우 사건 B의 확률
  • $P(B)$: 정규화 상수(normalizing constant): 확률의 크기 조정

베이즈 정리는 다음과 같이 증명한다.

(증명)

$$ P(A|B) = \dfrac{P(A,B)}{P(B)} \;\; \rightarrow \;\; P(A,B) = P(A|B)P(B) $$$$ P(B|A) = \dfrac{P(A,B)}{P(A)} \;\; \rightarrow \;\; P(A,B) = P(B|A)P(A) $$$$ P(A,B) = P(A|B)P(B) = P(B|A)P(A) $$$$ P(A|B) = \dfrac{P(B|A)P(A)}{P(B)} $$

베이즈 정리의 확장

만약 사건 $A_i$가 다음의 조건을 만족하는 경우,

  • 서로 교집합이 없고
$$ A_i \cap A_j = \emptyset $$
  • 모두 합쳤을 때 (합집합) 전체 표본 공간이면
$$ A_1 \cup A_2 \cup \cdots = \Omega $$

전체 확률의 법칙을 이용하여 다음과 같이 베이즈 정리를 확장할 수 있다.

$$ P(A_1|B) = \dfrac{P(B|A_1)P(A_1)}{\sum_i P(B|A_i)P(A_i)} $$

$A_1 = A$, $A_2 = A^C$ 인 경우에는 다음과 같다.

$$ P(A|B) = \dfrac{P(B|A)P(A)}{P(B|A)P(A) + P(B|A^C)P(A^C)} = \dfrac{P(B|A)P(A)}{P(B|A)P(A) + P(B|A^C)(1 - P(A))} $$

검사 시약 문제

베이즈 정리를 이용하여 다음과 같은 문제를 풀어보자.

제약사에서 환자가 특정한 병에 걸린지 확인할 수 있는 시약을 만들었다. 그 병에 걸린 환자에게 시약을 테스트한 결과 99%의 확률로 양성 반응을 보였다. 병에 걸린지 확인이 되지 않은 어떤 환자가 이 시약을 테스트한 결과 양성 반응을 보였다면 이 환자가 그 병에 걸려 있을 확률은 얼마인가? 99%일까?

이 문제를 확률론의 용어로 다시 정리하여 서술하여 보자.

우선 환자가 실제로 병에 걸린 경우를 사건 $D$ 라고 하자. 그러면 병에 걸려있지 않은 경우는 사건 $D^C$ 가 된다. 또 시약 테스트에서 양성 반응을 보이는 경우를 사건 $S$ 라고 하면 음성 반응을 보이는 경우는 사건 $S^C$ 이다.

현재 주어진 확률 값은 병에 결린 환자에게 시약을 테스트하였을 때 양성 반응을 보이는 확률이다. 병에 걸렸다는 것은 추가된 조건 혹은 정보이므로 이 확률은 $P(S|D)$로 표기할 수 있다.

그런데 우리가 구해야 하는 값은 이것과 반대로 양성 반응을 보이는 환자가 병에 걸려있을 확률이다. 이 때에는 양성 반응을 보인다라는 것이 추가된 정보이므로 이 확률은 $P(D|S)$로 표기할 수 있다.

검사 시약 문제
  • 사건

    • 병에 걸리는 경우: 사건 $D$
    • 양성 반응을 보이는 경우: 사건 $S$
    • 병에 걸린 사람이 양성 반응을 보이는 경우: 조건부 사건 $S|D$
    • 양성 반응을 보이는 사람이 병에 걸려 있을 경우: 조건부 사건 $D|S$
  • 문제
    • $P(S|D)=0.99$가 주어졌을 때, $P(D|S)$를 구하라

베이즈 정리에서

$$ P(D|S) = \dfrac{P(S|D)P(D)}{P(S)} $$

임을 알고 있다. 그러나 이 식에서 우리가 알고 있는 것은 $P(S|D)$ 뿐이고 $P(D)$나 $P(S)$는 모르기 때문에 $ P(D|S)$ 현재로서는 구할 수 없다. 즉, 99%라고 간단히 말할 수 없다는 것이다.

추가 조사를 통해 필요한 정보를 다음과 같이 입수하였다고 하자.

  • 이 병은 전체 인구 중 걸린 사람이 0.2% 인 희귀병이다.
  • 이 병에 걸리지 않은 사람에게 시약 검사를 했을 때, 양성 반응, 즉 잘못된 결과(False Positive)가 나타난 확률이 5% 이다.

이를 확률론적 용어로 바꾸면 다음과 같다.

$$P(D) = 0.002$$$$P(S|D^C) = 0.05$$

베이즈 정리의 확장을 사용하면

$$ \begin{eqnarray} P(D|S) &=& \dfrac{P(S|D)P(D)}{P(S)} \\ &=& \dfrac{P(S|D)P(D)}{P(S|D)P(D) + P(S|D^C)P(D^C)} \\ &=& \dfrac{P(S|D)P(D)}{P(S|D)P(D) + P(S|D^C)(1-P(D))} \\ &=& \dfrac{0.99 \cdot 0.002}{0.99 \cdot 0.002 + 0.05 \cdot (1 - 0.002)} \\ &=& 0.038 \end{eqnarray} $$

즉, 시약 반응에서 양성 반응을 보이는 사람이 실제로 병에 걸려 있을 확률은 약 3.8% 에 불과하다.

(추가 정보) 양성 반응 $S$ (추가 정보) 음성 반응 $S^C$
병에 걸려있다. $P(D) = 0.002$ $P(S|D) = 0.99$ 에서
병에 걸려 있으면서 양성 반응이 나타날 확률은 $P(S|D)P(D) = 0.99 \cdot 0.002 = 0.00198$
$P(S^C|D)$
병에 걸려있지 않다. $P(D^C) = 1 - 0.002 = 0.998$ $P(S|D^C) = 0.05$ 에서
병에 걸려 있지 않으면서 양성 반응이 나타날 확률은 $P(S|D^C)P(D^C) = 0.05 \cdot 0.998 = 0.0499$
$P(S^C|D^C)$

베이즈 정리의 확장 2

베이즈 정리는 사건 $A$의 확률이 사건 $B$에 의해 갱신(update)된 확률을 계산한다. 그런데 만약 이 상태에서 또 추가적인 사건 $C$가 발생했다면 베이즈 정리는 다음과 같이 쓸 수 있다.

$$ P(A|B,C) = \dfrac{P(C|A,B)P(A|B)}{P(C|B)} $$

이 공식을 사건 $A$와 $C$ 만 있는 경우와 비교해 보자.

$$ P(A|C) = \dfrac{P(C|A)P(A)}{P(C)} $$

(증명)

$$ P(A,B,C) = P(A|B,C)P(B,C) = P(A|B,C)P(C|B)P(B)$$$$ P(A,B,C) = P(C|A,B)P(A,B) = P(C|A,B)P(A|B)P(B) $$$$ P(A|B,C)P(C|B)P(B) = P(C|A,B)P(A|B)P(B) $$$$ P(A|B,C) = \dfrac{P(C|A,B)P(A|B)}{P(C|B)} $$

질문/덧글

아직 질문이나 덧글이 없습니다. 첫번째 글을 남겨주세요!