2024.07.11
✳️ 산포도 (Dispersion)
: 관찰된 데이터가 흩어져 있는 정도. 분산도 (Degree of dispersion), 변산성 (Variability) 이라고도 한다.
다음은 산포도의 지표의 종류를 정리하였다.
1️⃣ 범위 (Range)
: 최대값 - 최소값
- 자료의 퍼짐 정도를 가장 쉽게 나타낼 수 있다.
- 두 자료가 넓게 퍼져 있으면 범위는 커지고 모여 있으면 작아진다.
- 계산하기는 쉽지만 양쪽 극단값에 지나치게 좌우된다.
2️⃣ 사분위간 범위 (Interquartile range, IQR)
: IQR = Q3 - Q1
- 전체 데이터를 25% 단위로 나눌 수 있는 Q1(1사분위수), Q2(2사분위수), Q3(3사분위수)를 말한다.
- 제 1사분위수와 제 3사분위수의 범위가 사분위간 범위
- 사분위수(Quartile)
- Q1(1사분위수) : 25% 이하의 데이터가 존재하는 관측값
- Q2(2사분위수) : 50% 이하의 데이터가 존재하는 관측값(중위수)
- Q3(3사분위수) : 75% 이하의 데이터가 존재하는 관측값
- Q4(4사분위수) : 제 100 백분위
- 이상치(Outlier)가 주는 영향을 최소화하기 위해 사용한다.
3️⃣ 분산 (Variance)
: 자료들이 전반적으로 평균(중심)으로부터 얼마나 퍼져있는 가를 측정하는 측도, 편차 제곱들의 평균
편차 (Deviation) : 각 관측값에서 평균을 뺀
분산 : 편차 제곱들의 평균
4️⃣ 표준편차 (Standard deviation, SD)
: 분산의 양의 제곱근
- 표준편차는 산포도를 나타내는 지표로 가장 널리 이용된다.
- 표준 편차가 클수록 데이터 값들이 흩어져 있다.
<참고자료>
https://bioinformaticsandme.tistory.com/115
https://blog.naver.com/PostView.nhn?blogId=tmdwls379&logNo=222047385214
https://gooopy.tistory.com/117
'📒 Today I Learn > 📈 Statistics' 카테고리의 다른 글
[통계학 기초] 유의성 검정 (0) | 2024.08.06 |
---|---|
[통계학 기초] 데이터의 분포 실습 (0) | 2024.08.05 |
[통계학 기초] 데이터의 분포 (0) | 2024.08.05 |
[통계학 기초] 다양한 분석 방법 (실습) (0) | 2024.08.02 |
[통계학 기초] 기술 통계와 추론 통계 (0) | 2024.08.02 |