📒 Today I Learn

✳️ 딥러닝과 머신러닝⭐ 공통점데이터로부터 가중치를 학습하여 패턴을 인식하고 결정을 내리는 알고리즘 개발과 관련된 인공지능(AI)의 하위 분야 ⭐ 차이점머신러닝 : 데이터 안의 통계적 관계를 찾아내며 예측이나 부류를 하는 방법딥러닝 : 머신러닝의 한 분야로 신경세포 구조를 모방한 인공 신경망을 사용함    ✳️ 딥러닝 이론⭐ 인공 신경망(Artificial Neural Networks): 인간의 신경세포를 모방하여 만든 망(Networks)✨ 신경세포 : 이전 신경세포로 들어오는 자극을 이후 신경세포로 전기신호로 전달하는 기능을 하는 세포 ⭐ 퍼셉트론(Perceptron): 인공 신경망의 가장 작은 단위 🥸 키와 몸무게 데이터를 가지고 퍼셉트론을 그려본다면?몸무게와 키 데이터Y : 키X : 몸무게$w_..
✳️ 고객 세그멘테이션고객 세그멘테이션(Customer Segmentation)은 다양한 기준으로 고객을 분류하는 기법CRM(고객 관계 관리, Customer Relationship Management) 분야가 비지도 학습이 가장 많이 사용돼서 해당 분야 데이터로 실습해보자!데이터는 RFM을 기반으로 가공할 것이다. 💟 RFM의 개념Recency(R) : 가장 최근 구입 일에서 오늘까지의 시간Frequency(F) : 상품 구매 횟수Monetary value(M) : 총 구매 금액  ✳️ 실습하기1️⃣ 데이터 불러오기# 엑셀 파일을 불러오기 위해 패키지 설치! pip install openpyxlretail_df = pd.read_excel('C:/Users/82109/OneDrive/문서/ML/Onl..
✳️ 비지도 학습답을 알려주지 않고 데이터 간 유사성을 이용해서 답을 지정하는 방법데이터를 기반으로 레이블링하는 작업정답이 없는 문제이기 때문에 지도 학습보다 조금 어렵고 주관적인 판단이 개입대표적인 비지도 학습으로는 K-평균 군집화(K-means clustering)   ✳️ K - Means Clustering💟 수행 순서 K개 군집 수 설정임의의 중심을 선정해당 중심점과 거리가 가까운 데이터를 그룹화데이터의 그룹의 무게 중심으로 중심점 이동중심점을 이동했기 때문에 다시 거리가 가까운 데이터를 그룹화(* 3 ~ 5번 반복) 😇 장점일반적이고 적용하기 쉬움 👿 단점거리 기반으로 가까움을 측정하기 때문에 차원이 많을 수록 정확도가 떨어짐반복 횟수가 많을 수록 시간이 느려짐몇 개의 군집(K)을 선정할..
import pandas as pdimport numpy as npimport matplotlib.pyplot as pltfrom sklearn.preprocessing import LabelEncoderfrom sklearn.tree import DecisionTreeClassifier, plot_treetitanic_df = pd.read_csv('C:/Users/82109/OneDrive/문서/ML/titanic/train.csv')타이타닉 데이터를 이용하여 의사결정 나무를 그려보자!  ✳️ 의사결정 나무(Decision Tree) 실습먼저 이용할 변수들에 대해 처리해줘야할 전처리 실시X_features = ['Pclass', 'Sex', 'Age']# Pclass : 라벨인코딩# Sex : 라벨인..
지금까지 선형회귀와 로지스틱회귀를 배웠는데, 이 외에 자주 쓰는 분류와 회귀에 대한 알고리즘들을 학습하는 시간을 가졌다.   ✳️ 의사결정나무(Decision Tree, DT): 의사결정규칙을 나무 구조로 나타내어 전체 자료를 몇 개의 소집단으로 분류하거나 예측을 수행하는 분석 방법  💟 명칭루트 노드(Root Node) : 의사결정나무의 시작점. 최초의 분할조건리프 노드(Leaf Node) : 루트 노드로부터 파생된 중간 혹은 최종 노드분류기준(criteria) : sex는 여성인 경우 0, 남성인 경우 1로 인코딩. 여성인 경우 좌측 노드로, 남성인 경우 우측 노드로 분류불순도(impurity)불순도 측정 방법 중 하나인 지니 계수는 0과 1사이 값으로 0이 완벽한 순도(모든 샘플이 하나의 클래스)..
타이타닉 데이터를 이용하고, 살아남은 승객을 예측하는 모델을 만들어서  train과 test를 구분 지어두고 train 데이터로 모델을 학습 시킨 뒤, test 데이터에 적용하여 결과를 토대로 얼마나 예측을 잘 해냈는지 캐글에서 확인해보기!  import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport seaborn as sns먼저 필요한 라이브러리들을 불러온다.   ✳️ 데이터 로드 & 분리train / test 데이터 분리train_df = pd.read_csv('C:/Users/82109/OneDrive/문서/ML/titanic/train.csv')test_df = pd.read_csv('C:/Users/82109/OneDri..
import pandas as pdtitanic_df = pd.read_csv('C:/Users/82109/OneDrive/문서/ML/titanic/train.csv', encoding='utf-8')titanic_df.head(3)변수 설명PassengerId: 승객 식별자(Primary Key)Survival : 사망(0) 생존(1)Pclass: 티켓 등급(1,2,3 등급)Name: 이름Sex: 성별Age: 나이SibSp: 승객의 형제와 배우자 수Parch: 승객의 부모님과 자식 수*컬럼명에 오류가 있지만, 추후에 위 2가지 변수는 Family로 더하여 사용할 예정Ticket: 티켓 번호Fare: 요금Cabin: 객실 이름Embarked: 승선한 항구 C(Cherbourg), Q(Queenstown)..
✳️ 로지스틱회귀 (Logistic Regression) 독립변수 Y의 선형 결합을 이용해 사건의 발생 가능성을 예측하는 데 사용되는 통계 기법 🤔 로지스틱회귀 이론 얘는 왜 나온건데!?X가 연속형 변수이고, Y가 특정 값이 될 확률이라고 설정한다면, 왼쪽 그림과 같이 선형으로 설명하긴 쉽지 않아!확률은 0과 1사이 인데, 예측 값이 확률 범위를 넘어갈 수 있는 문제가 있다!하지만 오른쪽 그림처럼 S자 형태의 함수를 적용하면 잘 설명한다고 할 수 있다!!  ✳️ 로짓의 개념💟 오즈비 (odds ratio): 실패 확률 대비 성공 확률예) 게임이 이길 확률이 80%라면 오즈비는 80%/20% = 4이다. 따라서 1번 실패하면 4번은 이긴다. 그러나 오즈비는 바로 쓸 수 없다..!P는 확률 값으로 0,1..
✳️ 선형 회귀의 가정선형회귀는 이해하기 쉽고 방법도 쉽지만 X와 Y 변수 간의 선형적 관계가 좋아야만 좋은 성능을 나타낸다. 1️⃣ 선형성 (Linearity): 종속 변수(Y)와 독립 변수(X) 간에 선형 관계가 존재해야 함.  2️⃣ 등분산성 (Homoscedasticity): 오차의 분산이 모든 수준의 독립 변수에 대해 일정해야 함.즉, 오차가 특정 패턴을 보여서는 안되며, 독립 변수의 값에 상관 없이 일정해야 한다.  3️⃣ 정규성 (Normality): 오차 항은 정규 분포를 따라야 함  4️⃣ 독립성 (Independence): X변수는 서로 독립적이어야 함다중공선성 문제회귀분석에서 독립변수(X)간의 강한 상관관계가 나타나는 것을 다중공선성(Multicolinearity)문제 다중공선성 해결..
✳️ 다중선형회귀 실습다중선형회귀 : 단순선형회귀와 같은 개념이지만 독립변수 X가 여러개인 분석기법  앞 글에 단순선형회귀 실습에 이어서, tips 데이터들 중 범주형 데이터들을 이용해서 다중선형회귀를 실습해보도록 한다.https://se0ehe.tistory.com/151 [머신러닝 기초] 단순선형회귀 실습✳️ 단순선형회귀 실습 - 임의데이터선형회귀에 대해 실습을 하기위해 필요한 라이브러리들이 없기 때문에 설치하고 시작! pip install scikit-learn! pip install numpy! pip install pandas! pip install matplotlib! pse0ehe.tistory.com tips_df.head(3) 🤖 성별 데이터를 이용범주형 데이터이기 때문에 encodin..
se0ehe
'📒 Today I Learn' 카테고리의 글 목록 (4 Page)