030 - Using Bootstrapping to Calculate p-values!!!

상황: 지난 부트스트랩 영상의 상황과 동일하게, 약효에 대한 평정의 평균이 .5가 나옴.

목표는 부트스트래핑을 통해 p-value 계산.

영가설이 옳다는 말은 모집단의 평균이 0이라는 말이다.

Bootstrapping p-values notes Feb 19.png

근데 우리는 .5를 얻었으니, 이를 전체적으로 shift 해보자. : 영가설이 옳은 경우의 분포로 변환.

true null hypothesis 상황이겠지.

Bootstrapping p-values notes screenshot.png

이제 여기서 bootstrapping을 해보면,,

이런식으로 bootstrap된 개별 세트 당 평균의 분포를 그려보면,

Bootstrapping p-values notes Mar 16 screenshot.png

이런 분포를 얻을 수 있다.

Bootstrapping p-values notes Mar 22 screenshot.png

이 분포는 영가설이 참일 때를 기준으로 만들어진 분포라는 것을 기억하자.

영가설이 참이라는 가정하에, 표본 평균은 -.5~.5 사이에 36%의 확률로 떨어진다.

→ 이게 p-value의 정의잖아.

그러니까 이 분포를 가지고 원래 데이터(shift 전)를 해석해보면,

Transclude of Bootstrapping_p-values_notes_screenshot_(1
.png)

Bootstrapping p-values notes May 27 screenshot.png

부트스트래핑의 장점으로는 굳이 평균이 아니라, 중앙, 최빈 등을 사용할 수 있는 유연성이다.

아래는 median을 사용한 걸과인데, 마찬가지로 영가설 기각에 실패했고,

Transclude of Bootstrapping_p-values_notes_screenshot_(2
.png)

참고할만한건 outlier가 많아 보이는 상황에 median을 사용할 수 있어, 좋다 정도.