import pandas as pd
import seaborn as sns
data = sns.load_dataset('tip')
data.to_csv('tips_data.csv', index=False)
df = pd.read_csv('tips_data.csv')
df
✳️ .head( )
- 데이터를 n개 행까지 보여준다.
- 몇 개를 보일 것인지 지정하지 않으면 5개까지 보여준다.
df.head()
df.head(3)
✳️ .info( )
- 데이터의 정보를 파악한다. (인덱스, 컬럼명, 컬럼의 데이터 개수, 데이터 타입, Non-Null count)
df.info()
✳️ .describe( )
- 데이터의 기초통계량을 확인한다. (개수, 평균, 표준편차, 사분위, 최대, 최소)
df.describe()
✳️ 결측치 확인
df = pd.DataFrame({
'A' : [1,2,3,4],
'B' : [5,6,7,None]
})
df
- 결측치(null)이 있는지 확인하는 방법 - isna() & isnull()
df.isna()
df.isnull()
- 결측치 개수 확인
df.isnull().sum()
- 결측치 제거 - dropna()
df.dropna()
✳️ 중복 데이터 처리
# 중복 데이터 확인
df.duplicated(subset = ['컬럼1', '컬럼2', '컬럼3'])
# 중복 데이터 제거
df.drop_duplicates(subset = ['컬럼1', '컬럼2', '컬럼3'])
✳️ 이상치 처리
# IQR (Interquartile Range) 방법 찾아보기
# 참고 : https://www.scribbr.com/statistics/interquartile-range/
# IQR 계산
Q1 = df['컬럼1'].quantile(0.25)
Q3 = df['컬럼1'].quantile(0.75)
IQR = Q3 - Q1
# 이상치 기준 설정
lower_bound = Q1 - 1.5 * IQR
upper_bound = Q3 + 1.5 * IQR
# 이상치 제거
df[(df['컬럼1'] >= lower_bound) & (df['컬럼1'] <= upper_bound)]
'📒 Today I Learn > 🐼 Pandas' 카테고리의 다른 글
[Pandas] 데이터 선택 (0) | 2024.07.23 |
---|---|
[Pandas] 데이터 타입 확인과 변경 (0) | 2024.07.19 |
[Pandas] 인덱스 & 컬럼 (0) | 2024.07.18 |
[Pandas] 데이터 불러오기 / 저장하기 (0) | 2024.07.18 |
[Pandas] Apply & Map (0) | 2024.07.17 |