✳️ 선형 회귀의 가정
선형회귀는 이해하기 쉽고 방법도 쉽지만 X와 Y 변수 간의 선형적 관계가 좋아야만 좋은 성능을 나타낸다.
1️⃣ 선형성 (Linearity)
: 종속 변수(Y)와 독립 변수(X) 간에 선형 관계가 존재해야 함.
2️⃣ 등분산성 (Homoscedasticity)
: 오차의 분산이 모든 수준의 독립 변수에 대해 일정해야 함.
즉, 오차가 특정 패턴을 보여서는 안되며, 독립 변수의 값에 상관 없이 일정해야 한다.
3️⃣ 정규성 (Normality)
: 오차 항은 정규 분포를 따라야 함
4️⃣ 독립성 (Independence)
: X변수는 서로 독립적이어야 함
- 다중공선성 문제
회귀분석에서 독립변수(X)간의 강한 상관관계가 나타나는 것을 다중공선성(Multicolinearity)문제
- 다중공선성 해결방법
- 서로 상관관계가 높은 변수 중 하나만 선택(산점도 혹은 상관관계 행렬)
- 두 변수를 동시에 설명하는 차원축소(Principle Component Analysis, PCA) 실행하여 변수 1개로 축소
💟 최종정리
- 장점
- 직관적이며 이해하기 쉬움. X-Y관계를 정량 가능
- 모델이 빠르게 학습됨(가중치 계산이 빠름)
- 단점
- X-Y간의 선형성 가정이 필하다.
- 평가지표가 평균(mean)포함 하기에 이상치에 민감
- 범주형 변수를 인코딩시 정보 손실이 일어남
- Python 패키지
- sklearn.linear_model.LinearRegression
'📒 Today I Learn > 🤖 Machine Learning' 카테고리의 다른 글
[머신러닝 기초] 로지스틱회귀 실습 (0) | 2024.08.12 |
---|---|
[머신러닝 기초] 로지스틱회귀(분류 분석) 이론 (0) | 2024.08.12 |
[머신러닝 기초] 다중선형회귀 실습 (0) | 2024.08.09 |
[머신러닝 기초] 단순선형회귀 실습 (0) | 2024.08.09 |
[머신러닝 기초] 선형회귀 이론 (0) | 2024.08.09 |