Summary

신뢰구간(CI)은 모수(population parameter)의 그럴듯한 범위를 제시한다. “이 방법으로 구간을 반복 구성하면, 95%의 구간이 실제 모수를 포함한다”는 의미이다.

용어 설명

  • 모수 (Population parameter): 모집단 전체의 특성을 나타내는 고정된 값 (예: 모평균 μ, 모비율 p). 직접 알 수 없어 표본에서 추정
  • 점추정 (Point estimate): 모수를 하나의 값으로 추정하는 것 (예: 표본 평균 ). 정확도를 알 수 없다는 한계
  • 구간추정 (Interval estimate): 모수가 포함될 범위를 제시하는 것 = 신뢰구간
  • 신뢰수준 (Confidence level): 같은 방법으로 반복 추출 시, 구간이 모수를 포함할 비율 (95%가 관례)
  • 표준오차 (Standard Error, SE): 표본 통계량(예: 평균)의 표집 분포의 표준편차. 이므로 n이 클수록 SE 감소
  • t-분포 (t-distribution): 표본이 작을 때 정규분포 대신 사용하는 분포. 자유도(df)가 작을수록 꼬리가 두꺼워 구간이 넓어짐
  • z-분포 (z-distribution): 표준 정규분포. 대표본(n > 30)에서 t-분포의 근사로 사용

Confidence Interval (신뢰구간)

정확한 정의

수식 변수 풀이

  • : 표본 평균 — 수집한 데이터의 평균값 (모평균 μ의 점추정치)
  • : z 임계값 — 신뢰수준에 대응하는 표준정규분포 값. 95% CI이면
  • : 표본 표준편차 — 데이터가 평균에서 얼마나 흩어져 있는지
  • : 표본 크기 — 수집한 데이터 수
  • : 표준오차(SE) — 표본 평균의 불확실성. n이 클수록 감소

올바른 해석: 동일한 방법으로 100번 표본을 뽑아 95% CI를 구성하면, 그 중 약 95개의 구간이 실제 모수 μ를 포함한다.

흔한 오해

  • ❌ “모수가 이 구간에 있을 확률이 95%”
  • ✅ “이 방법(절차)으로 만든 구간이 모수를 포함할 확률이 95%”

모수는 고정된 값이므로 확률적 진술의 대상이 아니다. 확률은 절차에 대한 것이다.


가설검정과의 관계

95% CI와 α = 0.05 양측 검정은 동일한 결론:

CI 결과가설검정 결론
CI가 H₀ 값(보통 0)을 포함하지 않음H₀ 기각 (p < 0.05)
CI가 H₀ 값을 포함H₀ 기각 실패 (p ≥ 0.05)

예시

두 집단의 평균 차이: , 95% CI = [1.3, 7.1]

  • CI가 0을 포함하지 않으므로 → p < 0.05 → 유의한 차이
  • 또한 차이의 크기와 방향도 알 수 있음 (1.3~7.1 사이, 양의 방향)

CI의 장점 (vs p-value만 보고)

정보p-valueCI
유의 여부✅ (H₀ 포함 여부)
효과 방향
효과 크기 추정✅ (구간의 중심)
추정의 정밀도✅ (구간의 폭)

주요 모수별 CI 공식

평균의 CI

수식 변수 풀이

  • : t 임계값 — 자유도 df에 따른 t-분포의 임계값. 소표본에서 대신 사용하며, df가 작을수록 값이 커져 구간이 넓어짐
  • : 자유도 — 여기서는 . 표본 크기가 클수록 t-분포가 z-분포에 가까워짐
  • 소표본: t-분포 사용 (df = n-1)
  • 대표본 (n > 30): z-분포로 근사 가능

평균 차이의 CI

수식 변수 풀이

  • : 두 집단 평균의 차이 (점추정치)
  • : 평균 차이의 표준오차 — 두 집단의 분산과 표본 크기로 계산. 차이 추정의 불확실성을 반영

비율의 CI (Wald)

수식 변수 풀이

  • : 표본 비율 — 전체 표본 중 특정 범주에 해당하는 비율 (예: 찬성 비율)
  • : 비율의 분산 추정치일 때 최대 → 구간이 가장 넓음
  • Wald 방법: 정규근사 기반의 가장 기본적인 비율 CI. 소표본이나 이 0 또는 1에 가까우면 부정확

Effect Size의 CI

수식 변수 풀이

  • : Cohen’s d — 두 집단 평균 차이를 표준편차 단위로 표준화한 효과 크기
  • : Cohen’s d의 표준오차 — d 추정의 불확실성. 표본이 클수록, d가 작을수록 SE가 줄어듦
  • : 각 집단의 표본 크기

Cohen’s d, Effect Size 개요 참조


CI 폭에 영향을 주는 요인

수식 변수 풀이

  • : 비례 — CI 폭이 오른쪽 식에 비례한다는 의미
  • : 신뢰수준에 대응하는 임계값. 신뢰수준 95% → 1.96, 99% → 2.576
  • : 표본 표준편차 (데이터의 흩어짐). 클수록 CI 폭 증가
  • : 분모에 있으므로 표본 크기가 커지면 CI 폭 감소 (정밀도 향상)
요인CI 폭에 미치는 영향
n 증가폭 감소 (정밀도↑)
신뢰수준 증가 (95%→99%)폭 증가 (확신↑, 정밀도↓)
분산(s²) 감소폭 감소

부트스트랩 CI

분포 가정이 어려울 때, 리샘플링으로 CI를 구성:

Implementation

import numpy as np
from scipy import stats
 
# 평균의 95% CI (t-분포)
data = np.array([23, 25, 28, 30, 22, 27])
ci = stats.t.interval(0.95, df=len(data)-1,
                      loc=np.mean(data), scale=stats.sem(data))
print(f"95% CI: [{ci[0]:.2f}, {ci[1]:.2f}]")
 
# 부트스트랩 CI
from scipy.stats import bootstrap
rng = np.random.default_rng(42)
res = bootstrap((data,), np.mean, confidence_level=0.95,
                n_resamples=10000, random_state=rng)
print(f"Bootstrap 95% CI: [{res.confidence_interval.low:.2f}, "
      f"{res.confidence_interval.high:.2f}]")
 
# pingouin — t-test에서 자동 CI
import pingouin as pg
result = pg.ttest(group1, group2, paired=False)
print(result[['T', 'p-val', 'CI95%', 'cohen-d']])

관련 문서