029 - Bootstrapping Main Ideas!!!

신약 개발 중 약효 test를 해본다고 가정해보자.
약을 8명의 확진자들에게 줄 거다.

Bootstrapping Main Ideas Screenshot.png

이 5명의 사람들은 약효가 있다고 판단했고, 나머지 3명은 회의적이었다.

Transclude of Bootstrapping_Main_Ideas_Notes_Screenshot_(1

.png)

평균을 구해보면, 0.5인데, 이는 큰 효과는 아니다.
하지만, 명 수로 보면 5/8이 호전되었다고 느끼기 때문에 약을 아무것도 먹지 않는 것보다는 나을거다.

Transclude of Bootstrapping_Main_Ideas_Notes_Screenshot_(3

.png)

하지만, 만약 5명의 사람들이 점점 건강해져서 후한 점수를 준것이고, 3명은 불건강한 생활로 인해 나쁜 점수를 준 것이라면,
즉, 우리가 통제하지 못하는 변인에 의해 점수가 산정된 것이라면, 점수를 해석하는데 신중해야 한다.

Transclude of Bootstrapping_Main_Ideas_Notes_Screenshot_(4

.png)

어떻게 해야 더 잘 할 수 있을까?

반복 실험.

Transclude of Bootstrapping_Main_Ideas_Notes_Screenshot_(5
.png)

반복하여 평균 값을 계속 추적한다면,

이렇게 평균 값들을 모은 histogram을 얻을 수 있을 것이다.

Transclude of Bootstrapping_Main_Ideas_Notes_Screenshot_(6
.png)

보이는 것처럼, 평균은 0에 가깝고, 효능이 없어 보인다.
- 근데 이 방법은 돈과 시간이 너무 많이 든다.
Bootstrapping

Transclude of Bootstrapping_Main_Ideas_Notes_Screenshot_(1
1.png)

Transclude of Bootstrapping_Main_Ideas_Notes_Screenshot_(2
.png)

Transclude of Bootstrapping_Main_Ideas_Notes_Screenshot_(3
1.png)

Transclude of Bootstrapping_Main_Ideas_Notes_Screenshot_(4
1.png)

💡
비복원 추출(Sampling with Replacement)이라 한 값을 여러번 추출하는 것이 가능!

8개를 추출하는 것은 원본 셋이 8개라서 → 만약 원본으 크기가 10개였다면, 10으로..

이 새로운 셋을 부트스크랩 데이터셋이라 한다. → 원본 데이터랑 다르니, 평균도 다르겠지.
이제 이 평균을 이용해서 histogram을 그리면, (여러번의 부트스트랩핑 e.g. 1000번)

Transclude of Bootstrapping_Main_Ideas_Notes_Screenshot_(5
1.png)

이런 식으로 분포가 나오고,

Transclude of Bootstrapping_Main_Ideas_Notes_Screenshot_(6
1.png)

Transclude of Bootstrapping_Main_Ideas_Notes_Screenshot_(7
.png)

standard error를 알고 싶다면,

Transclude of Bootstrapping_Main_Ideas_Notes_Screenshot_(8
.png)

여기의 std을 계산하면 된다.

Transclude of Bootstrapping_Main_Ideas_Notes_Screenshot_(9
.png)

이 경우에는, 95% interval이 0을 cover해서 영가설 기각이 불가능. → 약효가 없는 것으로 판단.

Transclude of Bootstrapping_Main_Ideas_Screenshot_(1
.png)

근데 사실, bootstrapping 안 해도, confidence interval이랑 std error를 구할 수 있긴 한데, 어떠한 점에서 이점이 있을까?

Transclude of Bootstrapping_Main_Ideas_Notes_Screenshot_(10
.png)

→ 바로 중간에 계산하는 값이 굳이 평균이 아니어도 된다는 점이다. 중간에 histogram에 들어갈 값을 평균을 계산했지만, 이 위치에서 다른 statistic 값을 계산하여도 과정 상 문제될 게 없다.
→ 유연하다!

Juhyeon's Blog

탐색기

029 - Bootstrapping Main Ideas!!!

029 - Bootstrapping Main Ideas!!!

그래프 뷰

Properties

백링크