Mathmatics

📌 ANOVA (Remedy)데이터를 다룰 때, 한 번에 가정이 만족되는 경우는 거의 없다.사실 여러 방법으로 데이터를 개선해보아도 가정이 쉽사리 만족되지 않기 때문에, 어떻게 보면 통계적 가설 검정의 과정은 가정을 맞춰가는 싸움이라 해도 과언이 아니다. 💥 분야(domain)와 맥락에 대한 고려가 반드시 필요하다.모형의 가정이 만족하지 않았을 때, 당연하지만 가장 먼저 고민해야 할 것은 어떤 이유로 가정이 만족되지 않았는지이다.만약 일부 요인들에서 튀는 값들을 확인했다면 이런 값들을 통계학에서는 이상치(outlier)라고 볼 수 있는데, 사실 명확한 기준은 존재하지 않고 분야와 맥락을 고려해 이상치를 적절히 정의한다. 이러한 이상치는 때로 중요해서 따로 살펴볼 수 있고, 중요하지 않아 제외할 수도 ..
Equal Variance통계적 가설 검정에는 항상 가정(Assumption)이 붙는다.t-test에도 여러 가정이 숨어있었는데, 어떤 가정을 하느냐에 따라 이표본 t-검정에서 분산을 구하는 방법이 달라진다. 먼저 볼 가정은 두 집단의 분산이 같아야 한다는 것으로, 이를 조금 어렵게 말해 등분산성 이라 한다.반대로 등분산성이 만족되지 않는 경우를 이분산성 이라 하는데 이때는 수식이 좀 더 복잡해진다.t-test의 합동표준편차는 등분산성이 만족된다는 가정 하에 두 집단이 공통적으로 갖는 표준편차로, 두 집단 모두의 자료를 사용해 추정한 것이다. 하지만 일반적으로 등분산성 가정이 지켜지지 않는다는 전제하에 다음의 웰치 t-검정(Welch's t-test)을 많이 사용한다. 물론 등분산성 가정이 성립하고, 그..
T-test두 집단의 평균을 비교할 때 t-test를 사용한다.두 집단의 평균이 다른지를 비교할때는 이표본 t-검정(two sample t-test)를 사용하고 같은지 다른지를 보는 양측 검정(p1 != p2)을 수행한다.만약 한 집단의 평균이 특정 값인지를 검정하고 싶다면 단일 표본 t-검정(one sample t-test)를 사용한다. 대응표본 t-검정(paired t-test)는 실질적으로 단일 표본 t-검정과 동일하다.집단 A와 집단 B의 평균을 비교한다고 할 때, two sample t-test의 원리는 집단A의 평균과 집단B의 평균의 차가 t분포를 따른다는 가정하에, 그것이 통계적으로 유의미하게 0과 다른지를 따지는 것이다. 따라서 귀무가설과 대립가설은 다음과 같다.이를 검정하기 위해서, 통계..
중심극한정리(Central Limit Theorem)우리가 추정할 모수는 정말 많지만, 가장 흔한 것은 평균에 대한 추정이다.그런데 놀랍게도, 평균에 대한 추정이 다른 어떤 추정보다 쉽다는 것이다. 그 이유는 바로 중심극한정리(Central Limit Theorem)덕분이다.중심극한정리는 모집단의 분포에 관계없이 표본의 크기가(일반적으로 30) 커지면 커질수록 표본평균의 분포는 정규분포에 근사(approximation)하게 된다.💥 다시 한 번 주의해야 할 사항은 확률의 표본이 아니라 표본 평균이 정규분포를 따르게 된다는 것따라서 우리는 임의의 분포에 대해 정규분포를 이용해 그 평균을 추론할 수 있게 된다.이제 모집단이 어떤 분포를 따르던 상관없이 모두 같은 방법으로 모평균에 대한 신뢰구간(confid..
Sample모집단(population)은 정보를 얻고자 하는 관심 대상의 전체를 의미한다.일반적으로 우리는 모집단이 어떤 모습인지 조사할 방도가 없어 모집단으로부터 일부의 표본을 수집한 뒤 이를 잘 설명하는 모수와 분포를 찾아나서게 된다.우리가 수집할 데이터를 통계학에서는 확률 표본(random sample)이라고 부른다.주의해야 할 점은, 통계학에서 다루는 확률 표본은 여전히 확률 변수라는 점이다.확률변수는 아직 값이 정해지지 않은 변수이며 이것이 실현(realize)되면 상수가 된다.따라서 확률 표본의 평균은 결국 확률 변수의 조합으로, 다음과 같이 볼 수 있다.이러한 확률 변수로부터 연산한 값을 통계량(statistics)이라고 한다.표본 분산 역시 통계량의 일종으로 다음과 같이 구할 수 있다.Me..
PDFpdf : 확률 변수가 연속적일때 그 분포를 연속형 확률 분포라 하고 이에 대한 확률밀도를 pdf라 한다. 확률밀도함수에서는 확률 변수가 주어진 범위 내에서 임의의 실수 값을 가진다. 연속형의 경우 각 점에 대한 확률은 의미가 없고, 면적만이 그 의미를 갖는다.균일분포(Uniform distribution)- pmf 와 pdf에 둘 다 존재- 모수 역시 a, b 두 개가 존재(a:최솟값, b:최댓값, n:b-a+1)- 현실에서 자주 볼 일은 없다.정규분포(Normal distribution)- 가장 많이 언급, 활용되는 분포(정규분포가 가장 유명하고 많이 보이는 이유는 자연적으로 흔히 볼 수 있는 분포이기도 하고 중심극한정리로 인해 표본평균들의 분포가 정규분포를 따르게 되기 때문이다.)- 평균과 분..
앵후
'Mathmatics' 카테고리의 글 목록