✳️ 기술 통계
: 데이터를 요약하고 설명하는 통계 방법
- 주로 평균, 중앙값, 분산, 표준편차 등을 사용하여 데이터를 특정 대표값으로 요약
- 데이터에 대한 대략적인 특징을 간단하고 쉽게 알 수 있음
- 데이터 중 이상치라는 것이 항상 존재할 수 있고 데이터의 모든 부분을 확인할 수 있는 것은 아님!
⭐ 평균(Mean)
- 모든 데이터를 더한 후 데이터의 개수로 나누어 계산
- 데이터의 일반적인 경향을 파악하는 데 유용
⭐ 중앙값(Median)
- 데이터셋을 크기 순서대로 정렬했을 때 중앙에 위치한 값
- 이상치에 영향을 덜 받기 때문에 데이터의 중심 경향을 나타내는 또 다른 방법
⭐ 분산(Variance)
- 데이터 값들이 평균으로부터 얼마나 떨어져 있는지를 나타내는 척도, 데이터의 흩어짐 정도
- 분산이 크면 데이터가 넓게 퍼져 있고, 작으면 평균에 가깝게 모여 있음을 의미
- 데이터 값에서 평균을 뺀 값을 제곱한 후, 이걸 모두 더해 데이터의 개수로 나누는 것
⭐ 표준편차(Standard Deviation)
- 데이터 값들이 평균에서 얼마나 떨어져 있는지를 나타내는 통계적 척도로 분산의 제곱근을 취해 계산
- 데이터의 변동성을 측정하며 값이 클수록 데이터가 평균으로부터 더 넓게 퍼져 있음을 의미
🪄 표준편차와 분산의 관계
- 둘 다 동일하게 데이터의 변동성을 측정하는 두가지 주요 척도
- 분산은 데이터 값과 평균의 차이를 제곱하여 평균을 낸 값이기 때문에 제곱 단위로 표현 되지만, 표준편차는 다시 제곱근을 취해 원래 데이터 값과 동일한 단위로 변환되어 좀 더 사람이 보기에 데이터와 가까운 수치로 느껴져 자주 이용된다.
✳️ 추론 통계
: 표본 데이터를 통해 모집단의 특성을 추정하고 가설을 검정하는 통계 방법
- 주로 신뢰구간, 가설 검정 등을 사용하여 데이터의 일부를 가지고 데이터의 전체를 추정하는 것
⭐ 신뢰구간 (Confidence Interval)
- 모집단의 평균이 특정 범위 내에 있을 것이라는 확률을 나타냄
- 일반적으로 95% 신뢰구간이 사용되며, 이는 모집단 평균이 95% 확률로 이 구간 내에 있음을 의미
⭐ 가설검정 (Hypothesis Testing)
- 모집단에 대한 가설을 검증하기 위해 사용
- 귀무가설과 대립가설로 이루어짐, p-value를 통해 귀무가설을 기각할지 여부 결정
- 귀무가설(H0) : 검증하고자 하는 가설이 틀렸음을 나타내는 기본 가설
- 대립가설(H1) : 귀무가설의 반대 가설로 주장하는 바를 나타냄
'📒 Today I Learn > 📈 Statistics' 카테고리의 다른 글
[통계학 기초] 유의성 검정 (0) | 2024.08.06 |
---|---|
[통계학 기초] 데이터의 분포 실습 (0) | 2024.08.05 |
[통계학 기초] 데이터의 분포 (0) | 2024.08.05 |
[통계학 기초] 다양한 분석 방법 (실습) (0) | 2024.08.02 |
[통계] 산포도 (Dispersion) (0) | 2024.07.11 |