📒 Today I Learn

✳️ 단순선형회귀 실습 - 임의데이터선형회귀에 대해 실습을 하기위해 필요한 라이브러리들이 없기 때문에 설치하고 시작! pip install scikit-learn! pip install numpy! pip install pandas! pip install matplotlib! pip install seaborn 그리고 라이브러리들을 import 해준다.import sklearn import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as sns  ✏️ 데이터 생성이전 글에 대해서 키와 몸무게로 예시를 들었던 것을 살려서 실습에도 비슷한 데이터로 다뤄보기 위해 데이터를 생성해보자!weights = [87, 81, ..
✳️ 선형회귀 (Linear Regression): 데이터를 가장 잘 대변하는 최적의 선을 찾는 과정 💡 이론을 위한 사례키(Y)와 몸무게(X) 간의 데이터weights = [87,81,82,92,90,61,86,66,69,69]heights = [187,174,179,192,188,160,179,168,168,174] 키와 몸무게 간의 산점도와 예측 해볼 수 있는 선형 그래프 키와 몸무게의 분포를 보니 두 변수 사이에 일정하게 증가하는 패턴이 나타나는 것으로 가늠할 수 있다.그래서 몸무게를 알면 키를 예측할 수 있지 않을까? 라고 생각할 수 있다.실제로 각 값의 분포에 대해 선을 여러 경우로 그릴 수 있는데, 이때 가장 데이터의 분포를 잘 대변하는 선을 그리는 것이 선형회귀인 것이다. 🤔 여러 선들..
✳️ 머신러닝머신러닝(Machine Learning, ML): 기술 통계 등을 통하여 집계된 정보로 의사결정을 했던 과거와 달리 데이터 수집과 처리 기술의 발전으로 대용량 데이터의 패턴을 인식하고 이를 바탕으로 예측, 분류하는 방법론AI: 인간의 지능을 요구하는 업무를 수행하기 위한 시스템Machine Learning: 관측된 패턴을 기반으로 의사 결정을 하기 위한 알고리즘Deep Learning: 인공신경망을 이용한 머신러닝Data science: AI를 포괄하여 통계학과 컴퓨터공학을 바탕으로 발전한 융합학문Data Analysis: 데이터 집계, 통계 분석, 머신러닝을 포함한 행위  💟 머신러닝 종류Supervised Leaning(지도 학습)Unsupervised Learning(비지도 학습)Re..
✳️ 피어슨 상관관계 ⭐ 피어슨 상관계수 - 선형적인 관계가 예상 될 때 사용두 연속형 변수 간의 선형 관계를 측정하는 지표-1에서 1 사이의 값을 가지며1은 완전한 양의 선형 관계-1은 완전한 음의 선형 관계0은 선형 관계가 없음을 의미 X와 Y의 선형 관계를 보여줌그래프에서 점들이 직선적으로 퍼져 있으며, 상관계수는 0.99로 매우 강한 양의 선형 관계를 나타냄 ☑️ 실습import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as snsfrom scipy.stats import pearsonr# 예시 데이터 생성np.random.seed(0)study_hours = np.random.rand(100) * 10..
✳️ 파일의 종류파일 : 관련 있는 정보들의 집합디렉터리 사용 : 파일을 효과적으로 관리하기 위해 사용파일 시스템 : 디렉터리와 파일로 구성된 전체 집합리눅스에서 파일은 사용 목적에 따라 일반 파일/디렉터리/심벌릭 링크/장치 파일  💟 일반 파일(Regular File)데이터를 저장하는 데 주로 사용리눅스에서 사용하는 대부분의 파일은 일반 파일에 해당 (텍스트 파일, 실행 파일, 이미지 파일 등)실행 파일이나 이미지 파일의 경우 바이너리 형태로 데이터가 저장되어 바이너리 파일이라고도 함  💟 디렉터리(Directory)윈도우에서의 폴더같은 개념이라고 생각할 수 있고, 리눅스에서는 디렉터리도 파일로 취급디렉터리 파일에는 해당 디렉터리에 저장된 파일이나 하위 디렉터리에 대한 정보가 저장  💟 심벌릭 링..
✳️ 단순선형회귀 실습import numpy as npimport pandas as pdimport matplotlib.pyplot as pltfrom sklearn.linear_model import LinearRegressionfrom sklearn.model_selection import train_test_splitfrom sklearn.metrics import mean_squared_error, r2_score# 예시 데이터 생성np.random.seed(0)X = 2 * np.random.rand(100, 1)y = 4 + 3 * X + np.random.randn(100, 1)# 데이터 분할X_train, X_test, y_train, y_test = train_test_split(X, y..
✳️ 단순선형회귀 (Linear Regression)하나의 독립 변수(X)와 하나의 종속 변수(Y) 간의 관계를 직선으로 모델링하는 방법💟 회귀식 : Y = β0 + β1X (β0는 절편, β1는 기울기)1차 함수임!!! y = ax + b 💟 특징독립 변수의 변화에 따라 종속 변수가 어떻게 변화하는지 설명하고 예측데이터가 직선적 경향을 따를 때 사용간단하고 해석이 용이데이터가 선형적이지 않을 경우 적합하지 않음  ✳️ 다중선형회귀 (Multiple Linear Regression)두 개 이상의 독립 변수(X1, X2, ..., Xn)와 하나의 종속 변수(Y) 간의 관계를 모델링 💟 회귀식 : Y = β0 + β1X1 + β2X2 + ... + βnXn 사용할 변수의 개수만큼 x의 개수가 늘어남 ?..
✳️ A / B 검정 실습A디자인과 B디자인의 전환률 -> B가 더 크다과연 진짜로 차이가 난 것일까? A/B검정을 통해 알아보자!import numpy as npimport scipy.stats as stats# 가정된 전환율 데이터group_a = np.random.binomial(1, 0.30, 100) # 30% 전환율group_b = np.random.binomial(1, 0.45, 100) # 45% 전환율# t-test를 이용한 비교t_stat, p_val = stats.ttest_ind(group_a, group_b)print(f"T-Statistic: {t_stat}, P-value: {p_val}")t-test를 통해서 검정을 해보면 p-value가 0.05보다 낮게 나온 것을 볼 ..
✳️ A / B 검정A/B 검정은 두 버전(A와 B) 중 어느 것이 더 효과적인지 평가하기 위해 사용되는 검정 방법두 그룹 간의 변화가 우연이 아니라 통계적으로 유의미한지를 확인  ✳️가설검정표본 데이터를 통해 모집단의 가설을 검증하는 과정즉, 데이터가 특정 가설을 지지하는지 평가하는 과정귀무가설(H0)과 대립가설(H1)을 설정하고, 귀무가설을 기각할지를 결정데이터 분석시 두가지 전략을 취할 수 있음확증적 자료분석: 미리 가설들을 먼저 세운 다음 가설을 검증해 나가는 분석탐색적 자료분석(EDA): 가설을 먼저 정하지 않고 데이터를 탐색해보면서 가설 후보들을 찾고 데이터의 특징을 찾는 것 ☑️ 단계귀무가설(H0)과 대립가설(H1) 설정유의수준(α) 결정검정통계량 계산p-값과 유의수준 비교결론 도출 💟 통..
✳️ 모집단과 표본 실습import numpy as npimport matplotlib.pyplot as plt# 모집단 생성 (예: 국가의 모든 성인의 키 데이터)population = np.random.normal(170, 10, 1000)# 표본 추출sample = np.random.choice(population, 100)plt.hist(population, bins=50, alpha=0.5, label='population', color='g')plt.hist(sample, bins=50, alpha=0.5, label='sample', color='r')plt.legend()plt.title('population and sample distribution')plt.show() 🤔 numpy...
se0ehe
'📒 Today I Learn' 카테고리의 글 목록 (5 Page)