✳️ 로지스틱회귀 (Logistic Regression)
독립변수 Y의 선형 결합을 이용해 사건의 발생 가능성을 예측하는 데 사용되는 통계 기법
🤔 로지스틱회귀 이론 얘는 왜 나온건데!?
X가 연속형 변수이고, Y가 특정 값이 될 확률이라고 설정한다면, 왼쪽 그림과 같이 선형으로 설명하긴 쉽지 않아!
확률은 0과 1사이 인데, 예측 값이 확률 범위를 넘어갈 수 있는 문제가 있다!
하지만 오른쪽 그림처럼 S자 형태의 함수를 적용하면 잘 설명한다고 할 수 있다!!
✳️ 로짓의 개념
💟 오즈비 (odds ratio)
: 실패 확률 대비 성공 확률
예) 게임이 이길 확률이 80%라면 오즈비는 80%/20% = 4이다. 따라서 1번 실패하면 4번은 이긴다.
그러나 오즈비는 바로 쓸 수 없다..!
P는 확률 값으로 0,1사이 값인데, P가 증가할수록 오즈비가 급격하게 증가하기 때문에 너무 확률이 급격하게 증가하고 선형성을 따르지 않게 된다.
이런 문제를 해결하기 위해 로그를 씌워 이 부분을 좀 완화하기로 한 것이 바로 아래의 로짓이다.
💟 로짓 (logit)
: 오즈비에 로그를 씌워 완만하게 증가해준 것
💟 로지스틱 함수
로짓을 P에 대해 정리하면 다음과 같이 표현이 된다.
로짓의 범위는 - ∞, ∞이고 확률의 범위는 0, 1이 된다.
로짓의 장점은 어떤 값을 가져오더라도 반드시 특정 사건이 일어날 확률(Y값이 특정 값일 확률)이 0과 1안으로 들어오게 하는 특징을 가지게 된다.
로짓과 기존 선형회귀의 우변을 합치면,
양변에 자연지수 e를 취하면,
X값이 w_1만큼 증가하면 오즈비는 e^{w_1}만큼 증가한다. 라는 해석을 할 수 있는 식이 만들어진다.
로지스틱함수는 가중치 값을 안다면 X값이 주어졌을 때 해당 사건이 일어날 수 있는 P의 확률을 계산할 수 있게 된다.
이때, 확률 0.5를 기준으로 그보다 높으면 사건이 일어남(P(Y) = 1), 그렇지 않으면 사건이 일어나지 않음(P(Y) = 0)으로 판단하여 분류 예측에 사용한다.
✳️ 평가 지표
💟 혼돈행렬 (confusion matrix)
☑️ 표기법
- 실제와 예측이 같으면 True / 다르면 False
- 양성으로 했으면 Positive / 음성으로 했으면 Negative
☑️ 해석
- TP: 실제로 양성(암 환자)이면서 양성(암 환자) 올바르게 분류된 수
- FP: 실제로 음성(정상인)이지만 양성(암 환자)로 잘못 분류된 수
- FN: 실제로 양성(암 환자)이지만 음성(정상인)로 잘못 분류된 수
- TN: 실제로 음성(정상인)이면서 음성(정상인)로 올바르게 분류된 수
💟 지표
1️⃣ 정밀도 (Precision)
: 모델이 양성으로 예측한 결과 (예측 y, y_pred) 중 실제 양성의 비율(모델 관점)
2️⃣ 재현율 (Recall)
: 실제 값이 양성인 데이터 (실제 y, y_ture) 중 모델이 양성으로 예측한 비율(데이터 관점)
3️⃣ f1-score
: 정밀도와 재현율의 조화평균
4️⃣ 정확도 (Accuracy)
✓ 정확도가 제 기능을 못하는 경우는 분류에서 특히 Y값이 언밸런스하지 못할 때 일어난다. 이런 경우를 위해 Y 범주의 비율을 맞춰주거나 평가 지표를 f1-score을 사용하며 보완할 수 있다.
✳️ 회귀와 분류 정리
- 공통점
- 모델 생성이 쉬움
- 가중치 혹은 회귀계수를 통한 해석이 쉬움
- X변수에 범주형, 수치형 변수 둘 다 사용 가능
- 차이점
'📒 Today I Learn > 🤖 Machine Learning' 카테고리의 다른 글
[머신러닝 심화] 프로세스 적용 실습 (0) | 2024.08.13 |
---|---|
[머신러닝 기초] 로지스틱회귀 실습 (0) | 2024.08.12 |
[머신러닝 기초] 선형회귀 정리 (0) | 2024.08.09 |
[머신러닝 기초] 다중선형회귀 실습 (0) | 2024.08.09 |
[머신러닝 기초] 단순선형회귀 실습 (0) | 2024.08.09 |