'📒 Today I Learn' 카테고리의 글 목록 (4 Page)

2024.08.15·📒 Today I Learn/🤖 Machine Learning

✳️ 딥러닝과 머신러닝⭐ 공통점데이터로부터 가중치를 학습하여 패턴을 인식하고 결정을 내리는 알고리즘 개발과 관련된 인공지능(AI)의 하위 분야 ⭐ 차이점머신러닝 : 데이터 안의 통계적 관계를 찾아내며 예측이나 부류를 하는 방법딥러닝 : 머신러닝의 한 분야로 신경세포 구조를 모방한 인공 신경망을 사용함 ✳️ 딥러닝 이론⭐ 인공 신경망(Artificial Neural Networks): 인간의 신경세포를 모방하여 만든 망(Networks)✨ 신경세포 : 이전 신경세포로 들어오는 자극을 이후 신경세포로 전기신호로 전달하는 기능을 하는 세포 ⭐ 퍼셉트론(Perceptron): 인공 신경망의 가장 작은 단위 🥸 키와 몸무게 데이터를 가지고 퍼셉트론을 그려본다면?몸무게와 키 데이터Y : 키X : 몸무게$w_..

[머신러닝 심화] 비지도 학습 실습

2024.08.14·📒 Today I Learn/🤖 Machine Learning

✳️ 고객 세그멘테이션고객 세그멘테이션(Customer Segmentation)은 다양한 기준으로 고객을 분류하는 기법CRM(고객 관계 관리, Customer Relationship Management) 분야가 비지도 학습이 가장 많이 사용돼서 해당 분야 데이터로 실습해보자!데이터는 RFM을 기반으로 가공할 것이다. 💟 RFM의 개념Recency(R) : 가장 최근 구입 일에서 오늘까지의 시간Frequency(F) : 상품 구매 횟수Monetary value(M) : 총 구매 금액 ✳️ 실습하기1️⃣ 데이터 불러오기# 엑셀 파일을 불러오기 위해 패키지 설치! pip install openpyxlretail_df = pd.read_excel('C:/Users/82109/OneDrive/문서/ML/Onl..

[머신러닝 심화] 비지도 학습 이론

2024.08.14·📒 Today I Learn/🤖 Machine Learning

✳️ 비지도 학습답을 알려주지 않고 데이터 간 유사성을 이용해서 답을 지정하는 방법데이터를 기반으로 레이블링하는 작업정답이 없는 문제이기 때문에 지도 학습보다 조금 어렵고 주관적인 판단이 개입대표적인 비지도 학습으로는 K-평균 군집화(K-means clustering) ✳️ K - Means Clustering💟 수행 순서 K개 군집 수 설정임의의 중심을 선정해당 중심점과 거리가 가까운 데이터를 그룹화데이터의 그룹의 무게 중심으로 중심점 이동중심점을 이동했기 때문에 다시 거리가 가까운 데이터를 그룹화(* 3 ~ 5번 반복) 😇 장점일반적이고 적용하기 쉬움 👿 단점거리 기반으로 가까움을 측정하기 때문에 차원이 많을 수록 정확도가 떨어짐반복 횟수가 많을 수록 시간이 느려짐몇 개의 군집(K)을 선정할..

[머신러닝 심화] 분류와 회귀 모델링 심화 실습

2024.08.13·📒 Today I Learn/🤖 Machine Learning

import pandas as pdimport numpy as npimport matplotlib.pyplot as pltfrom sklearn.preprocessing import LabelEncoderfrom sklearn.tree import DecisionTreeClassifier, plot_treetitanic_df = pd.read_csv('C:/Users/82109/OneDrive/문서/ML/titanic/train.csv')타이타닉 데이터를 이용하여 의사결정 나무를 그려보자! ✳️ 의사결정 나무(Decision Tree) 실습먼저 이용할 변수들에 대해 처리해줘야할 전처리 실시X_features = ['Pclass', 'Sex', 'Age']# Pclass : 라벨인코딩# Sex : 라벨인..

[머신러닝 심화] 분류와 회귀 모델링 심화 이론

2024.08.13·📒 Today I Learn/🤖 Machine Learning

지금까지 선형회귀와 로지스틱회귀를 배웠는데, 이 외에 자주 쓰는 분류와 회귀에 대한 알고리즘들을 학습하는 시간을 가졌다. ✳️ 의사결정나무(Decision Tree, DT): 의사결정규칙을 나무 구조로 나타내어 전체 자료를 몇 개의 소집단으로 분류하거나 예측을 수행하는 분석 방법 💟 명칭루트 노드(Root Node) : 의사결정나무의 시작점. 최초의 분할조건리프 노드(Leaf Node) : 루트 노드로부터 파생된 중간 혹은 최종 노드분류기준(criteria) : sex는 여성인 경우 0, 남성인 경우 1로 인코딩. 여성인 경우 좌측 노드로, 남성인 경우 우측 노드로 분류불순도(impurity)불순도 측정 방법 중 하나인 지니 계수는 0과 1사이 값으로 0이 완벽한 순도(모든 샘플이 하나의 클래스)..

[머신러닝 심화] 프로세스 적용 실습

2024.08.13·📒 Today I Learn/🤖 Machine Learning

타이타닉 데이터를 이용하고, 살아남은 승객을 예측하는 모델을 만들어서 train과 test를 구분 지어두고 train 데이터로 모델을 학습 시킨 뒤, test 데이터에 적용하여 결과를 토대로 얼마나 예측을 잘 해냈는지 캐글에서 확인해보기! import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport seaborn as sns먼저 필요한 라이브러리들을 불러온다. ✳️ 데이터 로드 & 분리train / test 데이터 분리train_df = pd.read_csv('C:/Users/82109/OneDrive/문서/ML/titanic/train.csv')test_df = pd.read_csv('C:/Users/82109/OneDri..

[머신러닝 기초] 로지스틱회귀 실습

2024.08.12·📒 Today I Learn/🤖 Machine Learning

import pandas as pdtitanic_df = pd.read_csv('C:/Users/82109/OneDrive/문서/ML/titanic/train.csv', encoding='utf-8')titanic_df.head(3)변수 설명PassengerId: 승객 식별자(Primary Key)Survival : 사망(0) 생존(1)Pclass: 티켓 등급(1,2,3 등급)Name: 이름Sex: 성별Age: 나이SibSp: 승객의 형제와 배우자 수Parch: 승객의 부모님과 자식 수*컬럼명에 오류가 있지만, 추후에 위 2가지 변수는 Family로 더하여 사용할 예정Ticket: 티켓 번호Fare: 요금Cabin: 객실 이름Embarked: 승선한 항구 C(Cherbourg), Q(Queenstown)..

[머신러닝 기초] 로지스틱회귀(분류 분석) 이론

2024.08.12·📒 Today I Learn/🤖 Machine Learning

✳️ 로지스틱회귀 (Logistic Regression) 독립변수 Y의 선형 결합을 이용해 사건의 발생 가능성을 예측하는 데 사용되는 통계 기법 🤔 로지스틱회귀 이론 얘는 왜 나온건데!?X가 연속형 변수이고, Y가 특정 값이 될 확률이라고 설정한다면, 왼쪽 그림과 같이 선형으로 설명하긴 쉽지 않아!확률은 0과 1사이 인데, 예측 값이 확률 범위를 넘어갈 수 있는 문제가 있다!하지만 오른쪽 그림처럼 S자 형태의 함수를 적용하면 잘 설명한다고 할 수 있다!! ✳️ 로짓의 개념💟 오즈비 (odds ratio): 실패 확률 대비 성공 확률예) 게임이 이길 확률이 80%라면 오즈비는 80%/20% = 4이다. 따라서 1번 실패하면 4번은 이긴다. 그러나 오즈비는 바로 쓸 수 없다..!P는 확률 값으로 0,1..

[머신러닝 기초] 선형회귀 정리

2024.08.09·📒 Today I Learn/🤖 Machine Learning

✳️ 선형 회귀의 가정선형회귀는 이해하기 쉽고 방법도 쉽지만 X와 Y 변수 간의 선형적 관계가 좋아야만 좋은 성능을 나타낸다. 1️⃣ 선형성 (Linearity): 종속 변수(Y)와 독립 변수(X) 간에 선형 관계가 존재해야 함. 2️⃣ 등분산성 (Homoscedasticity): 오차의 분산이 모든 수준의 독립 변수에 대해 일정해야 함.즉, 오차가 특정 패턴을 보여서는 안되며, 독립 변수의 값에 상관 없이 일정해야 한다. 3️⃣ 정규성 (Normality): 오차 항은 정규 분포를 따라야 함 4️⃣ 독립성 (Independence): X변수는 서로 독립적이어야 함다중공선성 문제회귀분석에서 독립변수(X)간의 강한 상관관계가 나타나는 것을 다중공선성(Multicolinearity)문제 다중공선성 해결..

[머신러닝 기초] 다중선형회귀 실습

2024.08.09·📒 Today I Learn/🤖 Machine Learning

✳️ 다중선형회귀 실습다중선형회귀 : 단순선형회귀와 같은 개념이지만 독립변수 X가 여러개인 분석기법 앞 글에 단순선형회귀 실습에 이어서, tips 데이터들 중 범주형 데이터들을 이용해서 다중선형회귀를 실습해보도록 한다.https://se0ehe.tistory.com/151 [머신러닝 기초] 단순선형회귀 실습✳️ 단순선형회귀 실습 - 임의데이터선형회귀에 대해 실습을 하기위해 필요한 라이브러리들이 없기 때문에 설치하고 시작! pip install scikit-learn! pip install numpy! pip install pandas! pip install matplotlib! pse0ehe.tistory.com tips_df.head(3) 🤖 성별 데이터를 이용범주형 데이터이기 때문에 encodin..

티스토리툴바