✳️ 단순선형회귀 실습import numpy as npimport pandas as pdimport matplotlib.pyplot as pltfrom sklearn.linear_model import LinearRegressionfrom sklearn.model_selection import train_test_splitfrom sklearn.metrics import mean_squared_error, r2_score# 예시 데이터 생성np.random.seed(0)X = 2 * np.random.rand(100, 1)y = 4 + 3 * X + np.random.randn(100, 1)# 데이터 분할X_train, X_test, y_train, y_test = train_test_split(X, y..
전체 글
🥔💬➡✍🏻➡🍟✨✳️ 단순선형회귀 (Linear Regression)하나의 독립 변수(X)와 하나의 종속 변수(Y) 간의 관계를 직선으로 모델링하는 방법💟 회귀식 : Y = β0 + β1X (β0는 절편, β1는 기울기)1차 함수임!!! y = ax + b 💟 특징독립 변수의 변화에 따라 종속 변수가 어떻게 변화하는지 설명하고 예측데이터가 직선적 경향을 따를 때 사용간단하고 해석이 용이데이터가 선형적이지 않을 경우 적합하지 않음 ✳️ 다중선형회귀 (Multiple Linear Regression)두 개 이상의 독립 변수(X1, X2, ..., Xn)와 하나의 종속 변수(Y) 간의 관계를 모델링 💟 회귀식 : Y = β0 + β1X1 + β2X2 + ... + βnXn 사용할 변수의 개수만큼 x의 개수가 늘어남 ?..
✳️ A / B 검정 실습A디자인과 B디자인의 전환률 -> B가 더 크다과연 진짜로 차이가 난 것일까? A/B검정을 통해 알아보자!import numpy as npimport scipy.stats as stats# 가정된 전환율 데이터group_a = np.random.binomial(1, 0.30, 100) # 30% 전환율group_b = np.random.binomial(1, 0.45, 100) # 45% 전환율# t-test를 이용한 비교t_stat, p_val = stats.ttest_ind(group_a, group_b)print(f"T-Statistic: {t_stat}, P-value: {p_val}")t-test를 통해서 검정을 해보면 p-value가 0.05보다 낮게 나온 것을 볼 ..
✳️ A / B 검정A/B 검정은 두 버전(A와 B) 중 어느 것이 더 효과적인지 평가하기 위해 사용되는 검정 방법두 그룹 간의 변화가 우연이 아니라 통계적으로 유의미한지를 확인 ✳️가설검정표본 데이터를 통해 모집단의 가설을 검증하는 과정즉, 데이터가 특정 가설을 지지하는지 평가하는 과정귀무가설(H0)과 대립가설(H1)을 설정하고, 귀무가설을 기각할지를 결정데이터 분석시 두가지 전략을 취할 수 있음확증적 자료분석: 미리 가설들을 먼저 세운 다음 가설을 검증해 나가는 분석탐색적 자료분석(EDA): 가설을 먼저 정하지 않고 데이터를 탐색해보면서 가설 후보들을 찾고 데이터의 특징을 찾는 것 ☑️ 단계귀무가설(H0)과 대립가설(H1) 설정유의수준(α) 결정검정통계량 계산p-값과 유의수준 비교결론 도출 💟 통..
💻 발표 자료발표자료 보러가기 🪄 메인 튜터 피드백🐰 🐰 🐰 [좋았던 점]실무에서 분석하는 프로세스 순서대로 비즈니스 분석을 굉장히 논리적으로 잘해주셨습니다. 전체적인 비즈니스 현황, 수익 구조 파악, 개선 방향 제안까지 분석 방향성이 설득력있고 뚜렷해서 좋았습니다.예상 월 매출을 정량적으로 측정하신 부분도 인상적이었습니다.[보완할 점]선호 요금제 그래프는 복잡한 그래프를 활용하기보다는 한눈에 알아보기 쉬운 간단한 차트와 색상으로 강조해주셔도 좋습니다.분석 레포트에 원핫 인코딩 파트 전처리 코드는 캡쳐본 생략해주셔도 괜찮습니다.[총평]비즈니스 목표부터 프로젝트 회고까지 완성도 높은 멋진 프로젝트 결과물이었습니다.전체적으로 데이터 스토리텔링도 잘하셨고, 너무 훌륭한 결과물입니다. 고생 많으셨습니다..
✳️ 모집단과 표본 실습import numpy as npimport matplotlib.pyplot as plt# 모집단 생성 (예: 국가의 모든 성인의 키 데이터)population = np.random.normal(170, 10, 1000)# 표본 추출sample = np.random.choice(population, 100)plt.hist(population, bins=50, alpha=0.5, label='population', color='g')plt.hist(sample, bins=50, alpha=0.5, label='sample', color='r')plt.legend()plt.title('population and sample distribution')plt.show() 🤔 numpy...
✳️ 모집단과 표본⭐ 모집단 : 전체 집단⭐ 표본 : 모집단에서 추출한 일부 ✳️ 표본오차와 신뢰구간⭐ 표본오차(Sampling error)표본에서 계산된 통계량과 모집단의 진짜 값 간의 차이표본 크기가 클수록 표본오차는 작아짐=> 표본이 모집단을 완벽하게 대표하지 못하기 때문에 발생하며, 표본의 크기와 표본 추출 방법에 따라 달라질 수 있음표본의 크기 : 표본의 크기가 클수록 표본오차는 줄어듬. 더 많은 데이터를 수집할수록 모집단을 더 잘 대표하게 됨표본 추출 방법 : 무작위 추출 방법을 사용하면 표본오차를 줄일 수 있음. 모든 모집단 요소가 선택될 동등한 기회를 가지게 해야 함 ⭐ 신뢰구간(Confidence interval)신뢰구간은 모집단의 특정 파라미터(ex: 평균, 비율)에 대해 추정된 값이..
📓 배우고 해낸 것기초프로젝트 완주프로젝트 내용 정리통계학 chapter 1, 2파이썬 코드카타 복습 👍🏻 칭찬할 점정말 어려웠던 기초프로젝트를 무사히 완주 해냄!내용 정리도 블로그에 잘 기록함!프로그램 하차가 아닌 나의 속도로 달려가기를 결심한 것코딩을 내 것으로 만들기 위해 느려도 복습하기를 선택한 것 👎🏻 개선할 점멘탈케어.. 다시 용기를 내자!!!파이썬 천천히라도 꼭 내 것으로 만들기학습일지 꾸준히 작성하기 💗 느낀점기초프로젝트와 더불어 개인적으로 많은 일이 있었던터라 저번주 WIL을 놓쳐버리고 TIL도 많이 못썼다. 너무나 멋지고 대단한 팀원들을 만났지만 내 역량 이슈로 내 자신 스스로가 많이 낮아지는 시간을 보낸 2주였다. 심지어는 이 프로그램 과정이 내가 원하던 방향과는 점점 멀리 나아가는 ..
import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport seaborn as sns ✳️ 위치추정- 데이터의 중심을 확인하는 방법평균중앙값data = [85, 90, 78, 92, 88, 76, 95, 89, 84, 91]# 평균 구하기mean = np.mean(data)# 중앙값 구하기median = np.median(data)print(f'평균: {mean}, 중앙값: {median}') ✳️ 변이추정- 데이터들이 서로 얼마나 다른지 확인하는 방법분산표준편차범위data = [85, 90, 78, 92, 88, 76, 95, 89, 84, 91]# 분산 구하기variance = np.var(data)# 표준편차 구하기std..
✳️ 기술 통계: 데이터를 요약하고 설명하는 통계 방법주로 평균, 중앙값, 분산, 표준편차 등을 사용하여 데이터를 특정 대표값으로 요약데이터에 대한 대략적인 특징을 간단하고 쉽게 알 수 있음데이터 중 이상치라는 것이 항상 존재할 수 있고 데이터의 모든 부분을 확인할 수 있는 것은 아님! ⭐ 평균(Mean)모든 데이터를 더한 후 데이터의 개수로 나누어 계산데이터의 일반적인 경향을 파악하는 데 유용 ⭐ 중앙값(Median)데이터셋을 크기 순서대로 정렬했을 때 중앙에 위치한 값이상치에 영향을 덜 받기 때문에 데이터의 중심 경향을 나타내는 또 다른 방법 ⭐ 분산(Variance)데이터 값들이 평균으로부터 얼마나 떨어져 있는지를 나타내는 척도, 데이터의 흩어짐 정도분산이 크면 데이터가 넓게 퍼져 있고, 작으면 평..