✳️ 단순선형회귀 (Linear Regression)
- 하나의 독립 변수(X)와 하나의 종속 변수(Y) 간의 관계를 직선으로 모델링하는 방법
💟 회귀식 : Y = β0 + β1X (β0는 절편, β1는 기울기)
- 1차 함수임!!! y = ax + b
💟 특징
- 독립 변수의 변화에 따라 종속 변수가 어떻게 변화하는지 설명하고 예측
- 데이터가 직선적 경향을 따를 때 사용
- 간단하고 해석이 용이
- 데이터가 선형적이지 않을 경우 적합하지 않음
✳️ 다중선형회귀 (Multiple Linear Regression)
- 두 개 이상의 독립 변수(X1, X2, ..., Xn)와 하나의 종속 변수(Y) 간의 관계를 모델링
💟 회귀식 : Y = β0 + β1X1 + β2X2 + ... + βnXn
- 사용할 변수의 개수만큼 x의 개수가 늘어남
💟 특징
- 여러 독립 변수의 변화를 고려하여 종속 변수를 설명하고 예측
- 종속변수에 영향을 미치는 여러 독립변수가 있을 때 사용
- 여러 변수의 영향을 동시에 분석할 수 있음
- 변수들 간의 다중공선성 문제가 발생할 수 있음
🤔 다중공선성? (Multicollinearity)
: 회귀분석에서 독립 변수들 간에 높은 상관관계가 있는 경우
▶ 회귀분석 모델의 성능과 해석에 여러가지 문제를 야기할 수 있음
▶ 진단 방법
- 독립 변수들이 서로 강하게 상관되어 있으면, 각 변수의 개별적인 효과를 분리해내기 어려워져 회귀의 해석을 어렵게 만든다.
- 다중공선성으로 인해 실제로 중요한 변수가 통계적으로 유의하지 않게 나타날 수 있다.
▶ 해결 방법
- 가장 간단한 방법으로는 상관계수를 계산하여 상관계수가 높은(약 0.7) 변수들이 있는지 확인해볼 수 있음
- 더 정확한 방법으로는 분산 팽창 계수 (VIF)를 계산하여 VIF값이 10이 높은지 확인하는 방법으로 다중공선성이 높다고 판단할 수 있음
- 가장 간단한 방법으로는 높은 계수를 가진 변수 중 하나를 제거하는 것
- 혹은 주성분 분석(PCA)과 같은 변수들을 효과적으로 줄이는 차원 분석 방법을 적용하여 해결할 수도 있음
✳️ 범주형 변수
- 수치형 데이터가 아닌 주로 문자형 데이터로 이루어져 있는 변수가 범주형 변수
💟 종류
- 순서가 있는 범주형 변수
- 옷의 사이즈 (L, M, …), 수능 등급 (1등급, 2등급, ….)
- 순서가 잘 반영될 수 있게 숫자로 변환하여 데이터를 이용해도 문제가 되지 않음
- 순서가 없는 범주형 변수
- 성별 (남,여), 지역 (부산, 대구, 대전, …) 과 같이 순서가 없는 변수
- 2개 밖에 없는 경우 임의의 숫자로 바로 변환해도 문제가 없지만, 3개 이상인 경우에는 무조건 원-핫 인코딩(하나만 1이고 나머지는 0인 벡터)변환을 해주어야 한다 → pandas의 get_dummies를 활용하여 쉽게 구현 가능
-> 저번 기초 프로젝트 때 써먹은 데이터 전처리 방법!
https://se0ehe.tistory.com/133
✳️ 다항회귀, 스플라인 회귀 (Polynomial Regression, Spline Regression)
⭐ 다항회귀
- 독립 변수와 종속 변수 간의 관계가 선형이 아닐 때 사용. 독립 변수의 다항식을 사용하여 종속 변수를 예측
- 데이터가 곡선적 경향을 따를 때 사용
- 비선형 관계를 모델링할 수 있음
- 고차 다항식의 경우 과적합(overfitting) 위험이 있음
⭐ 스플라인 회귀
- 독립 변수의 구간별로 다른 회귀식을 적용하여 복잡한 관계를 모델링
- 구간마다 다른 다항식을 사용하여 전체적으로 매끄러운 곡선을 생성
- 데이터가 국부적으로 다른 패턴을 보일 때 사용
- 복잡한 비선형 관계를 유연하게 모델링할 수 있음
- 적절한 매듭점(knots)의 선택이 중요
'📒 Today I Learn > 📈 Statistics' 카테고리의 다른 글
[통계학 기초] 상관 관계 및 실습 (0) | 2024.08.08 |
---|---|
[통계학 기초] 회귀 실습 (0) | 2024.08.07 |
[통계학 기초] 유의성 검정 실습 (0) | 2024.08.06 |
[통계학 기초] 유의성 검정 (0) | 2024.08.06 |
[통계학 기초] 데이터의 분포 실습 (0) | 2024.08.05 |