✳️ A / B 검정
- A/B 검정은 두 버전(A와 B) 중 어느 것이 더 효과적인지 평가하기 위해 사용되는 검정 방법
- 두 그룹 간의 변화가 우연이 아니라 통계적으로 유의미한지를 확인
✳️가설검정
- 표본 데이터를 통해 모집단의 가설을 검증하는 과정
- 즉, 데이터가 특정 가설을 지지하는지 평가하는 과정
- 귀무가설(H0)과 대립가설(H1)을 설정하고, 귀무가설을 기각할지를 결정
- 데이터 분석시 두가지 전략을 취할 수 있음
- 확증적 자료분석
: 미리 가설들을 먼저 세운 다음 가설을 검증해 나가는 분석 - 탐색적 자료분석(EDA)
: 가설을 먼저 정하지 않고 데이터를 탐색해보면서 가설 후보들을 찾고 데이터의 특징을 찾는 것
- 확증적 자료분석
☑️ 단계
- 귀무가설(H0)과 대립가설(H1) 설정
- 유의수준(α) 결정
- 검정통계량 계산
- p-값과 유의수준 비교
- 결론 도출
💟 통계적 유의성
- 통계적 유의성은 결과가 우연히 발생한 것이 아니라 어떤 효과가 실제로 존재함을 나타내는 지표
- p값은 귀무 가설이 참일 경우 관찰된 통계치가 나올 확률을 의미
- 일반적으로 p값이 0.05 미만이면 결과를 통계적으로 유의하다고 판단
💟 p-value를 통한 유의성 확인
- 귀무가설이 참일 때, 관찰된 결과 이상으로 극단적인 결과가 나올 확률
- 일반적으로 p-값이 유의수준(α)보다 작으면 귀무가설을 기각
- 유의수준으로 많이 사용하는 값이 0.05
💟 신뢰구간과 가설검정
- 신뢰구간과 가설검정은 밀접하게 관련된 개념
- 둘 다 데이터의 모수(ex. 평균)에 대한 정보를 구하고자 하는 것이지만 접근 방식이 다름
- 신뢰구간 : 특정 모수가 포함될 범위를 제공
- 가설검정 : 모수가 특정 값과 같은지 다른지 테스트
✳️ t 검정
- t검정은 두 집단 간의 평균 차이가 통계적으로 유의미한지 확인하는 검정 방법
- 독립표본 t검정과 대응표본 t검정으로 나뉨
💟 독립표본 t 검정
- 두 독립된 그룹의 평균을 비교
💟 대응표본 t 검정
- 동일한 그룹의 사전/사후 평균을 비교
💟 p-value를 통한 유의성 확인
- 두 클래스의 시험 성적 비교(독립표본 t검정)
- 다이어트 전후 체중 비교(대응표본 t검정)
✳️ 다중 검정
- 여러 가설을 동시에 검정할 때 발생하는 문제
- 각 검정마다 유의수준을 조정하지 않으면 1종 오류(귀무가설이 참인데 기각하는 오류) 발생 확률이 증가
💟 보정 방법
- 본페로니 보정, 튜키 보정, 던넷 보정, 윌리엄스 보정 등이 있음
- 가장 대표적이고 기본적인게 본페로니 보정
✳️ 카이제곱 검정
- 범주형 데이터의 표본 분포가 모집단 분포와 일치하는지 검정(적합도 검정)하거나
- 두 범주형 변수 간의 독립성을 검정(독립성 검정)
💟 적합도 검정
- 관찰된 분포와 기대된 분포가 일치하는지 검정
- p값이 높으면 데이터가 귀무 가설에 잘 맞음. 즉, 관찰된 데이터와 귀무 가설이 적합
- p값이 낮으면 데이터가 귀무 가설에 잘 맞지 않음. 즉, 관찰된 데이터와 귀무 가설이 부적합
💟 독립 검정
- 두 범주형 변수 간의 독립성을 검정
- p값이 높으면 두 변수 간의 관계가 연관성이 없음 → 독립성이 있음
- p값이 낮으면 두 변수 간의 관계가 연관성이 있음 → 독립성이 없음
✳️ 제 1종 오류와 제 2종 오류
💟 제 1종 오류 (위양성)
- 귀무가설이 참인데 기각하는 오류
- 잘못된 긍정을 의미 (아무런 영향이 없는데 영향이 있다고 하는 것)
- α를 경계로 귀무가설을 기각하기 때문에 제1종 오류가 α만큼 발생
- 따라서 유의수준(α)을 정함으로써 제 1종 오류 제어 가능
- 만약, 유의수준이 0.05라면 100번 중 5번 정도 일어날 수 있는 제 1종 오류는 감수하겠다는 것
🤔 다중 검정시 제 1종 오류가 증가하는 이유
▶ 하나의 검정에서 제1종 오류가 발생하지 않을 확률은 1 - ɑ
▶ m개의 독립된 검정에서 제1종 오류가 전혀 발생하지 않을 확률은 (1 - ɑ)^m
▶ 따라서, m개의 검정에서 하나 이상의 제1종 오류가 발생할 확률(즉, 전체 제1종 오류율)은 1 - (1 - ɑ)^m
▶ 이 값은 m이 커질수록 빠르게 증가, 예를 들어, α=0.05, m=10인 경우
▶ 1 - (1 - 0.05)^10 ≈ 0.401
▶ 즉, 10개의 가설을 동시에 검정할 때 하나 이상의 가설에서 제 1종 오류가 발생할 확률이 약 40.1% 이므로 개별검증에서 발생하는 오류율(5%)보다 높음
💟 제 2종 오류 (위음성)
- 귀무가설이 거짓인데 기각하지 않는 오류
- 잘못된 부정을 의미 (영향이 있는데 영향이 없다고 하는 것)
- 제 2종 오류가 일어날 확률은 β로 정의
- 제 2종 오류가 일어나지 않을 확률은 검정력(1-β)으로 정의
- 하지만 이를 직접 통제할 수는 없음
- 그나마 통제를 해볼 수 있는 방법으로는…
- 표본크기 n이 커질 수록 β가 작아짐
- α와 β는 상충관계에 있어서 너무 낮은 α를 가지게 되면 β는 더욱 높아짐
'📒 Today I Learn > 📈 Statistics' 카테고리의 다른 글
[통계학 기초] 회귀(Regression) (0) | 2024.08.07 |
---|---|
[통계학 기초] 유의성 검정 실습 (0) | 2024.08.06 |
[통계학 기초] 데이터의 분포 실습 (0) | 2024.08.05 |
[통계학 기초] 데이터의 분포 (0) | 2024.08.05 |
[통계학 기초] 다양한 분석 방법 (실습) (0) | 2024.08.02 |