✳️sort sql의 order by처럼 정렬을 하는 method가 존재sort_value() : 값을 기준으로 정렬sort_index() : 인덱스를 기준으로 정렬by= : 어떤 컬럼의 값을 기준으로 할지 정할 수 있음(by='컬럼명')ascending=True or False : 오름차순 (True)이 기본이며 내림차순(False)도 설정 가능 예시)예시들을 내 입맛에 맞춰 변경해서 실습해봤다 😝df = pd.DataFrame({ 'Name': ['변준형', '이정현', '문성곤', '최성원', '박지훈'], 'Backnumber': [5, 6, 10, 19, 6], 'Score': [32, 37, 21, 27, 30]})df 인덱스로 정렬하기- 기본 값으로는 오름차순이지만 인덱스를..
📒 Today I Learn/🐼 Pandas
✳️ groupby( )Group by 함수는 데이터프레임을 그룹화그룹 단위로 데이터를 분할(split), 적용(apply), 결합(combine)하는 기능을 제공데이터프레임을 특정 기준에 따라 그룹으로 나누어 집계, 변환, 필터링 등 가능그룹 생성 : 기준 열(혹은 열들)을 지정하여 데이터프레임을 그룹으로 나눔그룹에 대한 연산 수행 : 그룹 단위로 원하는 연산(평균, 합, 개수 등)을 수행결과 결합 : 각 그룹의 연산 결과를 하나의 데이터프레임으로 결합하여 새로운 데이터프레임을 생성df = pd.DataFrame({ 'Category': ['A', 'B', 'A', 'B', 'A', 'B'], 'Value': [1, 2, 3, 4, 5, 6]})df 예시)df.groupby('Category..
✳️ concat데이터프레임을 위아래로 혹은 좌우로 연결axis : 연결하고자 하는 축(방향)을 지정. 기본값은 0으로, 위아래로 연결하는 경우에 해당. 1로 설정하면 좌우로 연결ignore_index : 기본값은 False이며, 연결된 결과 데이터프레임의 인덱스를 유지. True로 설정하면 새로운 인덱스를 생성 (True → 기존 인덱스를 무시하고 새롭게 인덱스를 설정) 예시)df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2'], 'B': ['B0', 'B1', 'B2']})df2 = pd.DataFrame({'A': ['A3', 'A4', 'A5'], 'B': ['B3', 'B4', 'B5']}) 좌우로 연결하기pd.concat([df1, df2]).reset_index(dr..
✳️ 신규 컬럼 추가하기df = pd.DataFrame()df['컬럼명'] = data# df라는 데이터프레임에 '컬럼명'이라는 이름의 컬럼이 추가되고,해당 컬럼에 data라는 값이 추가된다.# 이때, data값이 1개의 단일 값인 경우에는 전체 df라는 데이터프레임 행에 data 값이 전체 적용됨# 즉, # 하나의 값인 경우 => 전체 모두 동일한 값 적용# (리스트,시리즈)의 형태인 경우 => 각 순서에 맞게 컬럼 값에 적용됨 예시)df = pd.read_csv('tips_data.csv')df df['created_at'] = '2024-01-01'dfcreated_at라는 컬럼이 생성되었다. df['revenue'] = df['total_bill'] + df['tip']dftotal_bill 컬럼..
✳️ Boolean indexing특정 조건을 만족하는 데이터를 선택할 경우에 사용한다.데이터를 필터링하거나 원하는 조건을 만족하는 행을 추출 가능불리언 값을 가지는 조건식을 사용하여 데이터프레임을 인덱싱하는 방 df = pd.read_csv('pandas_practice/tips_data.csv')df boolean indexing은 조건을 형성할 때 유용하다! # 데이터 프레임을 불러올 때, [] 안에 조건을 넣으면 조건에 대해 참인 경우를 출력df[df['sex'] == 'Male'] 교집합 ( & )df[(df['sex'] == 'Male') & (df['smoker'] == 'Yes')] 합집합 ( | )df[(df['sex'] == 'Male') | (df['smoker'] == 'Yes'..
✳️ iloc & loc해당 내용을 따로 정리 했던 적이 있어서 링크 걸고 실습한거 정리!https://se0ehe.tistory.com/106 [Pandas] .loc[ ] & .iloc[ ]2024.07.15 ✳️.loc[ ]loc는 location의 약어이다.데이터 프레임의 행 또는 열을 label이나 boolean array로 인덱싱하는 방법이다.사람이 읽을 수 있는 라벨 값으로 특정 값들을 골라오는 방법!df.loc[행,se0ehe.tistory.com ⭐ ilocdf = pd.DataFrame({ 'A' : [1,2,3,4,5], 'B' : [10,20,30,40,50], 'C' : [100,200,300,400,500]})df원하는 행의 값을 확인df.iloc[0] #..
✳️ 데이터 타입 종류 ✳️ 데이터 타입 확인 - dtypeimport pandas as pdimport seaborn as snsdata = sns.load_dataset('tip')data.to_csv('tips_data.csv', index=False)df = pd.read_csv('tips_data.csv')df - tip 컬럼의 데이터 타입 확인하기df['tip'].dtype# dtype('float64')- size 컬럼의 데이터 타입 확인하기df['size'].dtype# dtype('int64') ✳️ 데이터 타입 변경 - astype- total_bill의 데이터 타입 바꾸기 (float ▶️ str)df['total_bill'] = df['total_bill'].astype(str)d..
import pandas as pdimport seaborn as snsdata = sns.load_dataset('tip')data.to_csv('tips_data.csv', index=False)df = pd.read_csv('tips_data.csv')df ✳️ .head( )데이터를 n개 행까지 보여준다.몇 개를 보일 것인지 지정하지 않으면 5개까지 보여준다.df.head()df.head(3) ✳️ .info( )데이터의 정보를 파악한다. (인덱스, 컬럼명, 컬럼의 데이터 개수, 데이터 타입, Non-Null count)df.info() ✳️ .describe( )데이터의 기초통계량을 확인한다. (개수, 평균, 표준편차, 사분위, 최대, 최소)df.describe() ✳️ 결측치 확..
✳️ index : 데이터프레임 또는 시리즈의 각 행 또는 각 요소에 대한 식별자특징고유성(Uniqueness) : 각 행은 유일한 인덱스 값을 가져야함. 중복된 인덱스 값을 가질 수 없음불변성(Immutability) : 불변성을 가짐. 즉, 한 번 생성된 인덱스는 변경(수정)할 수 없음단, 새로운 값을 할당하여 기존 인덱스를 대체하는 것은 가능 조작 및 탐색(Manipulation and Retrieval) : 인덱스를 사용하여 데이터프레임 또는 시리즈의 특정 행을 선택하거나 탐색할 수 있음 정렬(Sorting) : 인덱스를 기준으로 데이터프레임 또는 시리즈의 행을 정렬할 수 있음 예시) 다음과 같은 데이터프레임을 생성하였다.df = pd.DataFrame({ 'A' : [5, 6, 1], ..
✳️ 데이터 불러오기와 저장하기불러오기 : .read_* 파일을 불러오는 method로, ' * ' 에는 파일 형식을 넣어주면 된다. 저장하기 : to_* 저장을 하기 위한 method로, 마찬가지로 ' * ' 에 파일 형식을 입력하면 된다. 코드 예시)# panas를 이용할 것이기 때문에 pandas를 불러와준다. import pandas as pd # seaborn 라이브러리에서 내장 데이터를 불러와 실습할 것이라서 불러와줌. import seaborn as sns먼저 필요한 라이브러리를 import 해준다.data = sns.load_dataset('tips') dataseaborn에 내장 되어 있는 'tips' 데이터셋을 data 변수에 할당해준다. ⭐ 데이터 저장하기 먼저 이 'tips' 데이터..