📒 Today I Learn

✳️ 파일의 종류파일 : 관련 있는 정보들의 집합디렉터리 사용 : 파일을 효과적으로 관리하기 위해 사용파일 시스템 : 디렉터리와 파일로 구성된 전체 집합리눅스에서 파일은 사용 목적에 따라 일반 파일/디렉터리/심벌릭 링크/장치 파일  💟 일반 파일(Regular File)데이터를 저장하는 데 주로 사용리눅스에서 사용하는 대부분의 파일은 일반 파일에 해당 (텍스트 파일, 실행 파일, 이미지 파일 등)실행 파일이나 이미지 파일의 경우 바이너리 형태로 데이터가 저장되어 바이너리 파일이라고도 함  💟 디렉터리(Directory)윈도우에서의 폴더같은 개념이라고 생각할 수 있고, 리눅스에서는 디렉터리도 파일로 취급디렉터리 파일에는 해당 디렉터리에 저장된 파일이나 하위 디렉터리에 대한 정보가 저장  💟 심벌릭 링..
✳️ 단순선형회귀 실습import numpy as npimport pandas as pdimport matplotlib.pyplot as pltfrom sklearn.linear_model import LinearRegressionfrom sklearn.model_selection import train_test_splitfrom sklearn.metrics import mean_squared_error, r2_score# 예시 데이터 생성np.random.seed(0)X = 2 * np.random.rand(100, 1)y = 4 + 3 * X + np.random.randn(100, 1)# 데이터 분할X_train, X_test, y_train, y_test = train_test_split(X, y..
✳️ 단순선형회귀 (Linear Regression)하나의 독립 변수(X)와 하나의 종속 변수(Y) 간의 관계를 직선으로 모델링하는 방법💟 회귀식 : Y = β0 + β1X (β0는 절편, β1는 기울기)1차 함수임!!! y = ax + b 💟 특징독립 변수의 변화에 따라 종속 변수가 어떻게 변화하는지 설명하고 예측데이터가 직선적 경향을 따를 때 사용간단하고 해석이 용이데이터가 선형적이지 않을 경우 적합하지 않음  ✳️ 다중선형회귀 (Multiple Linear Regression)두 개 이상의 독립 변수(X1, X2, ..., Xn)와 하나의 종속 변수(Y) 간의 관계를 모델링 💟 회귀식 : Y = β0 + β1X1 + β2X2 + ... + βnXn 사용할 변수의 개수만큼 x의 개수가 늘어남 ?..
✳️ A / B 검정 실습A디자인과 B디자인의 전환률 -> B가 더 크다과연 진짜로 차이가 난 것일까? A/B검정을 통해 알아보자!import numpy as npimport scipy.stats as stats# 가정된 전환율 데이터group_a = np.random.binomial(1, 0.30, 100) # 30% 전환율group_b = np.random.binomial(1, 0.45, 100) # 45% 전환율# t-test를 이용한 비교t_stat, p_val = stats.ttest_ind(group_a, group_b)print(f"T-Statistic: {t_stat}, P-value: {p_val}")t-test를 통해서 검정을 해보면 p-value가 0.05보다 낮게 나온 것을 볼 ..
✳️ A / B 검정A/B 검정은 두 버전(A와 B) 중 어느 것이 더 효과적인지 평가하기 위해 사용되는 검정 방법두 그룹 간의 변화가 우연이 아니라 통계적으로 유의미한지를 확인  ✳️가설검정표본 데이터를 통해 모집단의 가설을 검증하는 과정즉, 데이터가 특정 가설을 지지하는지 평가하는 과정귀무가설(H0)과 대립가설(H1)을 설정하고, 귀무가설을 기각할지를 결정데이터 분석시 두가지 전략을 취할 수 있음확증적 자료분석: 미리 가설들을 먼저 세운 다음 가설을 검증해 나가는 분석탐색적 자료분석(EDA): 가설을 먼저 정하지 않고 데이터를 탐색해보면서 가설 후보들을 찾고 데이터의 특징을 찾는 것 ☑️ 단계귀무가설(H0)과 대립가설(H1) 설정유의수준(α) 결정검정통계량 계산p-값과 유의수준 비교결론 도출 💟 통..
✳️ 모집단과 표본 실습import numpy as npimport matplotlib.pyplot as plt# 모집단 생성 (예: 국가의 모든 성인의 키 데이터)population = np.random.normal(170, 10, 1000)# 표본 추출sample = np.random.choice(population, 100)plt.hist(population, bins=50, alpha=0.5, label='population', color='g')plt.hist(sample, bins=50, alpha=0.5, label='sample', color='r')plt.legend()plt.title('population and sample distribution')plt.show() 🤔 numpy...
✳️ 모집단과 표본⭐ 모집단 : 전체 집단⭐ 표본 : 모집단에서 추출한 일부  ✳️ 표본오차와 신뢰구간⭐ 표본오차(Sampling error)표본에서 계산된 통계량과 모집단의 진짜 값 간의 차이표본 크기가 클수록 표본오차는 작아짐=> 표본이 모집단을 완벽하게 대표하지 못하기 때문에 발생하며, 표본의 크기와 표본 추출 방법에 따라 달라질 수 있음표본의 크기 : 표본의 크기가 클수록 표본오차는 줄어듬. 더 많은 데이터를 수집할수록 모집단을 더 잘 대표하게 됨표본 추출 방법 : 무작위 추출 방법을 사용하면 표본오차를 줄일 수 있음. 모든 모집단 요소가 선택될 동등한 기회를 가지게 해야 함 ⭐ 신뢰구간(Confidence interval)신뢰구간은 모집단의 특정 파라미터(ex: 평균, 비율)에 대해 추정된 값이..
import pandas as pdimport numpy as npimport matplotlib.pyplot as pltimport seaborn as sns  ✳️ 위치추정- 데이터의 중심을 확인하는 방법평균중앙값data = [85, 90, 78, 92, 88, 76, 95, 89, 84, 91]# 평균 구하기mean = np.mean(data)# 중앙값 구하기median = np.median(data)print(f'평균: {mean}, 중앙값: {median}')  ✳️ 변이추정- 데이터들이 서로 얼마나 다른지 확인하는 방법분산표준편차범위data = [85, 90, 78, 92, 88, 76, 95, 89, 84, 91]# 분산 구하기variance = np.var(data)# 표준편차 구하기std..
✳️ 기술 통계: 데이터를 요약하고 설명하는 통계 방법주로 평균, 중앙값, 분산, 표준편차 등을 사용하여 데이터를 특정 대표값으로 요약데이터에 대한 대략적인 특징을 간단하고 쉽게 알 수 있음데이터 중 이상치라는 것이 항상 존재할 수 있고 데이터의 모든 부분을 확인할 수 있는 것은 아님! ⭐ 평균(Mean)모든 데이터를 더한 후 데이터의 개수로 나누어 계산데이터의 일반적인 경향을 파악하는 데 유용 ⭐ 중앙값(Median)데이터셋을 크기 순서대로 정렬했을 때 중앙에 위치한 값이상치에 영향을 덜 받기 때문에 데이터의 중심 경향을 나타내는 또 다른 방법 ⭐ 분산(Variance)데이터 값들이 평균으로부터 얼마나 떨어져 있는지를 나타내는 척도, 데이터의 흩어짐 정도분산이 크면 데이터가 넓게 퍼져 있고, 작으면 평..
✳️sort sql의 order by처럼 정렬을 하는 method가 존재sort_value() : 값을 기준으로 정렬sort_index() : 인덱스를 기준으로 정렬by= : 어떤 컬럼의 값을 기준으로 할지 정할 수 있음(by='컬럼명')ascending=True or False : 오름차순 (True)이 기본이며 내림차순(False)도 설정 가능 예시)예시들을 내 입맛에 맞춰 변경해서 실습해봤다 😝df = pd.DataFrame({ 'Name': ['변준형', '이정현', '문성곤', '최성원', '박지훈'], 'Backnumber': [5, 6, 10, 19, 6], 'Score': [32, 37, 21, 27, 30]})df 인덱스로 정렬하기- 기본 값으로는 오름차순이지만 인덱스를..
se0ehe
'📒 Today I Learn' 카테고리의 글 목록 (6 Page)