046 - StatQuickie: Thresholds for Significance
p-value의 기준값은 일반적으로 0.05, 0.01, 또는 0.001 등으로 설정되며, 이 값들은 연구자들이 가설검정을 통해 귀무가설을 기각할지 여부를 판단할 때의 기준점으로 사용됩니다. 하지만 이 값들은 실제로 절대적인 정답이 아니라, 연구 분야와 목적, 데이터 특성에 따라 다를 수 있습니다.
왜 흔히 0.05를 사용하는가?
0.05는 통계학 역사에서 널리 채택된 관습적 기준입니다. 구체적으로, 영국의 통계학자 로널드 A. 피셔(Ronald A. Fisher)가 1920~1930년대에 통계적 유의성을 논의할 때, 0.05를 하나의 관례적인 기준으로 제안했습니다. 그는 이 값을 일종의 출발점으로 권장했지만, 연구 상황에 따라 유연하게 설정할 수 있음을 강조했습니다. 이후 많은 연구에서 0.05가 암묵적인 표준처럼 자리 잡았지만, 이는 단순히 실용적이고 편리한 기준으로 정착된 것일 뿐, 어떤 보편적 법칙에 의해 정해진 숫자는 아닙니다.
p-value 기준이 변화할 수 있는 요인들
- 연구 분야와 관행:
• 특정 과학 분야에서는 0.05를 주로 사용하지만, 생명과학이나 의학처럼 더 엄격한 기준이 필요한 분야에서는 0.01 또는 0.001처럼 낮은 값을 사용할 수 있습니다.
• 경제학이나 심리학에서는 0.05가 자주 쓰이지만, 반복 연구나 대규모 데이터를 다룰 때는 더 낮은 기준이 요구될 수도 있습니다.
- 데이터의 특성과 신뢰성:
• 데이터가 매우 큰 경우, 작은 효과도 p-value를 낮게 만드므로 0.05 이하를 쉽게 달성할 수 있습니다. 이때는 더 낮은 기준값을 설정하여 진정한 신호를 찾으려는 시도가 이루어질 수 있습니다.
• 반대로 데이터가 소규모이거나, 잡음이 많다면 0.05보다 높은 값(예: 0.1)을 사용할 수도 있습니다.
- 복수 검정과 보정:
• 많은 가설을 동시에 검정하는 경우, 유의 수준을 더 엄격하게 설정하거나 보정(Bonferroni 보정 등)을 통해 실제 의미 있는 결과를 구분해야 합니다.
결론적으로, p-value 기준이 꼭 0.05여야 한다는 절대적인 규칙은 없습니다. 0.05는 편리하고 널리 사용되는 값이지만, 연구의 목적, 데이터의 성격, 연구 분야의 관습에 따라 달라질 수 있습니다. 따라서 연구자는 해당 상황에서 가장 적합한 유의 수준을 신중히 선택해야 합니다.