📌 ANOVA (Remedy)데이터를 다룰 때, 한 번에 가정이 만족되는 경우는 거의 없다.사실 여러 방법으로 데이터를 개선해보아도 가정이 쉽사리 만족되지 않기 때문에, 어떻게 보면 통계적 가설 검정의 과정은 가정을 맞춰가는 싸움이라 해도 과언이 아니다. 💥 분야(domain)와 맥락에 대한 고려가 반드시 필요하다.모형의 가정이 만족하지 않았을 때, 당연하지만 가장 먼저 고민해야 할 것은 어떤 이유로 가정이 만족되지 않았는지이다.만약 일부 요인들에서 튀는 값들을 확인했다면 이런 값들을 통계학에서는 이상치(outlier)라고 볼 수 있는데, 사실 명확한 기준은 존재하지 않고 분야와 맥락을 고려해 이상치를 적절히 정의한다. 이러한 이상치는 때로 중요해서 따로 살펴볼 수 있고, 중요하지 않아 제외할 수도 ..
📌 ANOVA (Assumption test)t-검정에서, 통계 모형의 결과를 신뢰하기 위해서는 해당 모형의 가정(assumption)이 맞는지 확인해 보아야 한다. ANOVA의 가정은 t-검정과 달리 잔차(residual)에 대해 정의된다. 잔차는 오차(error)와 약간 다른데, 오차가 이론적으로 모집단의 실제값과 관측된 값의 차이라면 잔차는 예측값과 실제값 사이의 차이다. 분산분석의 경우 각 요인에 대한 평균의 차이를 보는 것이기 때문에, 요인에 대한 예측값은 해당 요인의 평균이다. 따라서 잔차는 관측값 - 요인평균($y_{ji}$ - $\bar{y_{j.}}$)이 된다.잔차에 대한 가정이 있다는 것은, 집단 사이의 차이가 존재함을 가정했을 때, 다음의 세 가지 가정이 성립하는 것이다. 세 가지..
ANOVA (Analysis of Variance)t-검정은 한 집단 혹은 두 집단의 평균에 대한 검정이였다.하지만 집단의 수가 셋 이상이라면, t-검정은 직접적으로 이들을 비교할 수 없다.이에 대한 해결책은 크게 두 가지로 나누어 볼 수 있는데, 예를 들어 세 개의 집단이 있다고 가정하자. 3개의 집단을 A, B, C라고 한다면 AB, AC, BC 이렇게 3가지 경우의 수에 대해 3번의 t-검정을 수행하는 방법이 있다. 하지만 이럴 경우에는 3개의 검정이 중첩된다는 문제가 있다.이것이 왜 문제가 될까? 1종 오류가 일어날 확률을 $\alpha$ 라고 했다.통계적 가설 검정은 항상 오류의 가능성을 내포하고 있기 때문에, 하나하나의 검정은 모두 알파 수준의 오류 가능성을 가지고 있게 된다. 거꾸로 말하면..
Equal Variance통계적 가설 검정에는 항상 가정(Assumption)이 붙는다.t-test에도 여러 가정이 숨어있었는데, 어떤 가정을 하느냐에 따라 이표본 t-검정에서 분산을 구하는 방법이 달라진다. 먼저 볼 가정은 두 집단의 분산이 같아야 한다는 것으로, 이를 조금 어렵게 말해 등분산성 이라 한다.반대로 등분산성이 만족되지 않는 경우를 이분산성 이라 하는데 이때는 수식이 좀 더 복잡해진다.t-test의 합동표준편차는 등분산성이 만족된다는 가정 하에 두 집단이 공통적으로 갖는 표준편차로, 두 집단 모두의 자료를 사용해 추정한 것이다. 하지만 일반적으로 등분산성 가정이 지켜지지 않는다는 전제하에 다음의 웰치 t-검정(Welch's t-test)을 많이 사용한다. 물론 등분산성 가정이 성립하고, 그..
T-test두 집단의 평균을 비교할 때 t-test를 사용한다.두 집단의 평균이 다른지를 비교할때는 이표본 t-검정(two sample t-test)를 사용하고 같은지 다른지를 보는 양측 검정(p1 != p2)을 수행한다.만약 한 집단의 평균이 특정 값인지를 검정하고 싶다면 단일 표본 t-검정(one sample t-test)를 사용한다. 대응표본 t-검정(paired t-test)는 실질적으로 단일 표본 t-검정과 동일하다.집단 A와 집단 B의 평균을 비교한다고 할 때, two sample t-test의 원리는 집단A의 평균과 집단B의 평균의 차가 t분포를 따른다는 가정하에, 그것이 통계적으로 유의미하게 0과 다른지를 따지는 것이다. 따라서 귀무가설과 대립가설은 다음과 같다.이를 검정하기 위해서, 통계..
중심극한정리(Central Limit Theorem)우리가 추정할 모수는 정말 많지만, 가장 흔한 것은 평균에 대한 추정이다.그런데 놀랍게도, 평균에 대한 추정이 다른 어떤 추정보다 쉽다는 것이다. 그 이유는 바로 중심극한정리(Central Limit Theorem)덕분이다.중심극한정리는 모집단의 분포에 관계없이 표본의 크기가(일반적으로 30) 커지면 커질수록 표본평균의 분포는 정규분포에 근사(approximation)하게 된다.💥 다시 한 번 주의해야 할 사항은 확률의 표본이 아니라 표본 평균이 정규분포를 따르게 된다는 것따라서 우리는 임의의 분포에 대해 정규분포를 이용해 그 평균을 추론할 수 있게 된다.이제 모집단이 어떤 분포를 따르던 상관없이 모두 같은 방법으로 모평균에 대한 신뢰구간(confid..