📒 Today I Learn/📈 Statistics

✳️ 피어슨 상관관계 ⭐ 피어슨 상관계수 - 선형적인 관계가 예상 될 때 사용두 연속형 변수 간의 선형 관계를 측정하는 지표-1에서 1 사이의 값을 가지며1은 완전한 양의 선형 관계-1은 완전한 음의 선형 관계0은 선형 관계가 없음을 의미 X와 Y의 선형 관계를 보여줌그래프에서 점들이 직선적으로 퍼져 있으며, 상관계수는 0.99로 매우 강한 양의 선형 관계를 나타냄 ☑️ 실습import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport seaborn as snsfrom scipy.stats import pearsonr# 예시 데이터 생성np.random.seed(0)study_hours = np.random.rand(100) * 10..
✳️ 단순선형회귀 실습import numpy as npimport pandas as pdimport matplotlib.pyplot as pltfrom sklearn.linear_model import LinearRegressionfrom sklearn.model_selection import train_test_splitfrom sklearn.metrics import mean_squared_error, r2_score# 예시 데이터 생성np.random.seed(0)X = 2 * np.random.rand(100, 1)y = 4 + 3 * X + np.random.randn(100, 1)# 데이터 분할X_train, X_test, y_train, y_test = train_test_split(X, y..
✳️ 단순선형회귀 (Linear Regression)하나의 독립 변수(X)와 하나의 종속 변수(Y) 간의 관계를 직선으로 모델링하는 방법💟 회귀식 : Y = β0 + β1X (β0는 절편, β1는 기울기)1차 함수임!!! y = ax + b 💟 특징독립 변수의 변화에 따라 종속 변수가 어떻게 변화하는지 설명하고 예측데이터가 직선적 경향을 따를 때 사용간단하고 해석이 용이데이터가 선형적이지 않을 경우 적합하지 않음  ✳️ 다중선형회귀 (Multiple Linear Regression)두 개 이상의 독립 변수(X1, X2, ..., Xn)와 하나의 종속 변수(Y) 간의 관계를 모델링 💟 회귀식 : Y = β0 + β1X1 + β2X2 + ... + βnXn 사용할 변수의 개수만큼 x의 개수가 늘어남 ?..
✳️ A / B 검정 실습A디자인과 B디자인의 전환률 -> B가 더 크다과연 진짜로 차이가 난 것일까? A/B검정을 통해 알아보자!import numpy as npimport scipy.stats as stats# 가정된 전환율 데이터group_a = np.random.binomial(1, 0.30, 100) # 30% 전환율group_b = np.random.binomial(1, 0.45, 100) # 45% 전환율# t-test를 이용한 비교t_stat, p_val = stats.ttest_ind(group_a, group_b)print(f"T-Statistic: {t_stat}, P-value: {p_val}")t-test를 통해서 검정을 해보면 p-value가 0.05보다 낮게 나온 것을 볼 ..
✳️ A / B 검정A/B 검정은 두 버전(A와 B) 중 어느 것이 더 효과적인지 평가하기 위해 사용되는 검정 방법두 그룹 간의 변화가 우연이 아니라 통계적으로 유의미한지를 확인  ✳️가설검정표본 데이터를 통해 모집단의 가설을 검증하는 과정즉, 데이터가 특정 가설을 지지하는지 평가하는 과정귀무가설(H0)과 대립가설(H1)을 설정하고, 귀무가설을 기각할지를 결정데이터 분석시 두가지 전략을 취할 수 있음확증적 자료분석: 미리 가설들을 먼저 세운 다음 가설을 검증해 나가는 분석탐색적 자료분석(EDA): 가설을 먼저 정하지 않고 데이터를 탐색해보면서 가설 후보들을 찾고 데이터의 특징을 찾는 것 ☑️ 단계귀무가설(H0)과 대립가설(H1) 설정유의수준(α) 결정검정통계량 계산p-값과 유의수준 비교결론 도출 💟 통..
✳️ 모집단과 표본 실습import numpy as npimport matplotlib.pyplot as plt# 모집단 생성 (예: 국가의 모든 성인의 키 데이터)population = np.random.normal(170, 10, 1000)# 표본 추출sample = np.random.choice(population, 100)plt.hist(population, bins=50, alpha=0.5, label='population', color='g')plt.hist(sample, bins=50, alpha=0.5, label='sample', color='r')plt.legend()plt.title('population and sample distribution')plt.show() 🤔 numpy...
✳️ 모집단과 표본⭐ 모집단 : 전체 집단⭐ 표본 : 모집단에서 추출한 일부  ✳️ 표본오차와 신뢰구간⭐ 표본오차(Sampling error)표본에서 계산된 통계량과 모집단의 진짜 값 간의 차이표본 크기가 클수록 표본오차는 작아짐=> 표본이 모집단을 완벽하게 대표하지 못하기 때문에 발생하며, 표본의 크기와 표본 추출 방법에 따라 달라질 수 있음표본의 크기 : 표본의 크기가 클수록 표본오차는 줄어듬. 더 많은 데이터를 수집할수록 모집단을 더 잘 대표하게 됨표본 추출 방법 : 무작위 추출 방법을 사용하면 표본오차를 줄일 수 있음. 모든 모집단 요소가 선택될 동등한 기회를 가지게 해야 함 ⭐ 신뢰구간(Confidence interval)신뢰구간은 모집단의 특정 파라미터(ex: 평균, 비율)에 대해 추정된 값이..
import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport seaborn as sns  ✳️ 위치추정- 데이터의 중심을 확인하는 방법평균중앙값data = [85, 90, 78, 92, 88, 76, 95, 89, 84, 91]# 평균 구하기mean = np.mean(data)# 중앙값 구하기median = np.median(data)print(f'평균: {mean}, 중앙값: {median}')  ✳️ 변이추정- 데이터들이 서로 얼마나 다른지 확인하는 방법분산표준편차범위data = [85, 90, 78, 92, 88, 76, 95, 89, 84, 91]# 분산 구하기variance = np.var(data)# 표준편차 구하기std..
✳️ 기술 통계: 데이터를 요약하고 설명하는 통계 방법주로 평균, 중앙값, 분산, 표준편차 등을 사용하여 데이터를 특정 대표값으로 요약데이터에 대한 대략적인 특징을 간단하고 쉽게 알 수 있음데이터 중 이상치라는 것이 항상 존재할 수 있고 데이터의 모든 부분을 확인할 수 있는 것은 아님! ⭐ 평균(Mean)모든 데이터를 더한 후 데이터의 개수로 나누어 계산데이터의 일반적인 경향을 파악하는 데 유용 ⭐ 중앙값(Median)데이터셋을 크기 순서대로 정렬했을 때 중앙에 위치한 값이상치에 영향을 덜 받기 때문에 데이터의 중심 경향을 나타내는 또 다른 방법 ⭐ 분산(Variance)데이터 값들이 평균으로부터 얼마나 떨어져 있는지를 나타내는 척도, 데이터의 흩어짐 정도분산이 크면 데이터가 넓게 퍼져 있고, 작으면 평..
2024.07.11   ✳️ 산포도 (Dispersion): 관찰된 데이터가 흩어져 있는 정도. 분산도 (Degree of dispersion), 변산성 (Variability) 이라고도 한다.다음은 산포도의 지표의 종류를 정리하였다. 1️⃣ 범위 (Range): 최대값 - 최소값자료의 퍼짐 정도를 가장 쉽게 나타낼 수 있다.두 자료가 넓게 퍼져 있으면 범위는 커지고 모여 있으면 작아진다.계산하기는 쉽지만 양쪽 극단값에 지나치게 좌우된다. 2️⃣ 사분위간 범위 (Interquartile range, IQR): IQR = Q3 - Q1전체 데이터를 25% 단위로 나눌 수 있는 Q1(1사분위수), Q2(2사분위수), Q3(3사분위수)를 말한다.제 1사분위수와 제 3사분위수의 범위가 사분위간 범위사분위수(Qu..
se0ehe
'📒 Today I Learn/📈 Statistics' 카테고리의 글 목록