중심극한정리(Central Limit Theorem)
우리가 추정할 모수는 정말 많지만, 가장 흔한 것은 평균에 대한 추정이다.
그런데 놀랍게도, 평균에 대한 추정이 다른 어떤 추정보다 쉽다는 것이다.
그 이유는 바로 중심극한정리(Central Limit Theorem)덕분이다.
중심극한정리는 모집단의 분포에 관계없이 표본의 크기가(일반적으로 30) 커지면 커질수록 표본평균의 분포는 정규분포에 근사(approximation)하게 된다.
💥 다시 한 번 주의해야 할 사항은 확률의 표본이 아니라 표본 평균이 정규분포를 따르게 된다는 것
따라서 우리는 임의의 분포에 대해 정규분포를 이용해 그 평균을 추론할 수 있게 된다.
이제 모집단이 어떤 분포를 따르던 상관없이 모두 같은 방법으로 모평균에 대한 신뢰구간(confidence interval)을 구할 수 있게 된다.
신뢰구간(Confidence Interval)
신뢰구간의 정의는 다음과 같다.
모수 θ에 대한 추정량을 $\hat{\theta}$이라고 하고, 신뢰수준 1-$\alpha$(0 $\leq$ $\alpha$ $\leq$ 1)라고 한다면
모수 ($\hat{\theta}$ - c, $\hat{\theta}$ + c)를 모수${\theta}$에 대한 100(1-$\alpha$)% 신뢰구간이라 한다.
💥 ${\theta}$에 대한 분포가 대칭(symmetric)이 만족되지 않을 때 정확한 신뢰구간을 구하려면 수식이 엄청 복잡해지는데 다행히 우리가 주로 사용할 정규분포와 t분포는 모두 대칭이다.
💥 신뢰구간의 해석에 대해 주의해야 하는데, 신뢰 구간의 의미는 '모수가 신뢰구간에 들어갈 확률'이 아니다. 신뢰 수준이 95%인 신뢰 구간의 정확한 의미는 다음과 같다.
표본을 뽑아 신뢰구간을 무수히 많이 계산한다면 100번 중 95번은 신뢰구간이 모수를 포함하고 있다.
원래라면 우리는 추정량에 대한 분포를 알지 못하기 때문에 P(|$\hat{\theta}$ - ${\theta}$| $\leq$ c)를 구할 수 없지만 CLT를 통해 표본 평균만큼은 표본의 크기가 클 때 근사적으로 정규분포를 따른다는 것을 알고있다. 추정하는 모수는 평균인 ${\mu}$이고, 그에 대한 추정량은 표본 평균인 X̄이다. 그렇다면 우리의 목표는 P(|X̄ - ${\theta}$| $\leq$ c) = 1 - ${\alpha}$를 만족하는 c를 찾는 것으로, 이에 대한 직접적인 해석은 추정량과 모수 사이의 차이가 c보다 작을 확률이
1 - ${\alpha}$라는 것으로, 우리의 직관과 일치한다.
Statistical hyphothesis test
통계적 가설 검정은 우리가 세운 가설이 맞는지에 대해 답을 줄 수 있는 정량적 방법론 중 하나이다.
💥 통계적 가설 검정은 여러 가정을 깔고 가기 때문에, 그러한 가정이 맞는다면 유의미한 결론을 낼 수 있지만 거꾸로 가정이 맞지 않다면 엉뚱한 결론을 낼 수 있으니 주의해야 한다.
통계적 가설은 먼저 증명하고자 하는 것이 참과 거짓을 구분할 수 있는 명제로 주어져야 하며, 수치적으로 계량화 되어 있어야 한다.
또한 자료에 임의성(randomness)가 있어야 하고 비교가 모호(ambiguous)해야 한다.
통계적 가설은 고전적으로 두 가지 가설을 다룬다.
먼저 귀무 가설(Null hypothesis)은 보통 기존에 사실이라고 알려져 있는 가설이라고 말한다.
그리고 귀무 가설의 반대가 되는 대립 가설은(Alternative hypothesis)은 보통 연구자가 새롭게 입증하려는 가설을 말한다.
일반적으로 귀무가설을 H0, 대립가설을 H1로 표기한다.
Reference
[Introduction to Basic Statistics in Python](https://wikidocs.net/book/7982)
'Mathmatics > Statistics' 카테고리의 다른 글
Statistical Assumption (1) | 2024.07.01 |
---|---|
T-test and P-value (0) | 2024.06.25 |
Statistical Estimate (1) | 2024.06.14 |
Continuous Probability Distribution (1) | 2024.06.09 |
Discrete Probability Distribution (0) | 2024.05.31 |