011 - p-values: What they are and how to interpret them
약의 효능을 검증하는 과정이라고 생각해보자.
약 A, B가 있는데,
- 한 사람이 A가 효과가 있다고 보고하고
- 다른 한 사람이 B가 효과가 없다고 보고한다면,
이때, A가 B보다 낫다고 결론지을 수 있을까?
→ 그럴 수 없다. B의 효능이 검증되지 않은데 매우 많은 이유가 존재할 수 있기 때문.
Transclude of P-Values_Interpretation_Notes_Screenshot_(1.png)
만약, 각각의 경우에 대해 두 사람으로 pool을 늘린다면?
이때,
- A에 대해서는 두 사람 모두 효과가 있다고 보고,
- B에 대해서는 한 사람만 효과가 있다고 보고했다면,
A가 B 보다 낫다고 할 수 있는가?

이렇게 너무 적은 pool의 data는 일반화하기 어렵다.
사람들을 더 많이 늘려보자.

99.7% = 1043/1046
0.13% = 2/1434
이 경우에는 명백하게 다른 경우들 보다 A가 B보다 우수하다고 할 수 있을 것이다.
이걸 다르게 말해보면,
위의 결과에서 A 집단 사람들 중 플라시보에 의해 효과가 있다고 보고하고, B에서 일부가 알러지가 있어 효과가 없을 수도 있으나, 집단의 크기가 전 상황에 비해 매우 크기 때문에 그러할 확률이 매우 작다.
그러면 아래와 같은 상황을 비교해보자.
Transclude of P-Values_Interpretation_Notes_Screenshot_(2.png)
A: 37%, B: 31%이다.
확률적으로만 보면, A가 더 좋은 약이다. 그러나, 앞서 이야기 한 것과 같은(플라시보, 알러지 등) 뜻하지 않은 요인도 존재할 수 있을 텐데, 위의 결과를 얼마나 확신할 수 있겠는가?
→ p-value라는 값을 통해, 위 결과를 얼마나 신뢰할 수 있는지 이야기 한다.
통상 .01, .05 유의 수준으로 null-hypothesis의 reject 여부를 결정.
p-value가 0에 가깝다. : 영가설이 맞다고 가정할 때, 우연에 의해 더 극단적인 검정통계량을 가지기 어렵다. → 관측된 결과를 기반으로 한 검정 통계량이 통계적 관점에서 그럴싸하다. → 동일 모집단에서 다시 샘플링해서 검정 통계량을 계산해봐도 더 극단적인 결과가 나오지 않을 것이다. → 검증이 유의미하다.
위의 경우에서는,
Transclude of P-Values_Interpretation_Notes_Screenshot_(3.png)
이렇게 p-value가 커서, 영가설이 옳다는 가정하에 이보다 더 극단적인 검정 통계량을 가질 확률이 .9나 된다. 즉, 더 극단적인 검정 통계량을 얻기 쉽기 때문에, 이 결과를 통해서 두 집단간 차이에 대해 논할 수 없다는 걸 의미한다.
[Confusion matrix: 혼동 행렬]

True Positive: 양성이라고 예언한게 참 → 참을 양성이라 한 것.
True Negative: 음성이라 예언한게 참인 것. → 거짓을 음성이라고 한 것.
False Positive: 양성이라고 한 것이 거짓. → 거짓을 양성이라고 한 것. (Type I error)
False Negative: 음성이라고 한 것이 거짓. → 참을 음성이라고 한 것. (Type II error)
만약 우리가 유의도 .05 수준으로 통계 검정을 진행한다면, 5% 미만의 확률로 반복검증에서 False Positive인 p 값이 0.05보다 작은 경우를 관측할 수 있을 것이다.
이러한 과정을 hypothesis testing이라고 한다.