📒 Today I Learn

import pandas as pdimport seaborn as snsdata = sns.load_dataset('tip')data.to_csv('tips_data.csv', index=False)df = pd.read_csv('tips_data.csv')df   ✳️ .head( )데이터를 n개 행까지 보여준다.몇 개를 보일 것인지 지정하지 않으면 5개까지 보여준다.df.head()df.head(3)   ✳️ .info( )데이터의 정보를 파악한다. (인덱스, 컬럼명, 컬럼의 데이터 개수, 데이터 타입, Non-Null count)df.info()   ✳️ .describe( )데이터의 기초통계량을 확인한다. (개수, 평균, 표준편차, 사분위, 최대, 최소)df.describe()   ✳️ 결측치 확..
✳️ zip(iterables, strict=False)iterable한 객체들을 인자로 받는다.각 객체가 담고 있는 원소를 튜플의 형태로 차례대로 접근할 수 있는 반복자를 반환 🔹 기본 활용법numbers = [1, 2, 3]letters = ["A", "B", "C"]for pair in zip(numbers, letters): print(pair)# (1, 'A')# (2, 'B')# (3, 'C')number  리스트와 letter 리스트를 zip 함수에 인자로 넘겨져서 호출되고 for문을 통해 루프를 돌면서 튜플 형태로 차례대로 반환 된다. 양측의 데이터를 하나씩 매칭시켜 준다.  🔹병렬 처리for number, upper, lower in zip("12345", "ABCDE", ..
map과 apply의 큰 차이.. 바로 map은 시리즈에서만, apply 시리즈와 데이터프레임에 모두 활용해볼 수 있다는 점이었는데.. 막상 해보니까 아니 map도 데이터프레임에서 되는디요..? 해서 팀원분과 함께 튜터님을 찾아가 이야기를 나눠본 결과... Pandas 업그레이드로!! map의 작동 방식이 달라졌다 라는 것을 튜터님과 같이 알아냈다! 이건 다 구글 코랩과 주피터 환경을 비교하여 같이 고민해준 팀원님과 함께 알아봐주신 튜터님께 무한 감사를.. 아니었으면.. 나 내일도 머리 쥐어뜯고 있었을 듯... *해당 내용은 Pandas 2.2.2 버전에서 실행되는 내용입니다.* 예시로 아무 숫자나 넣어서 우리나라 농구팀의 라운드 별 이긴 횟수의 데이터프레임을 제작해봤다.import pandas as p..
✳️ index : 데이터프레임 또는 시리즈의 각 행 또는 각 요소에 대한 식별자특징고유성(Uniqueness) : 각 행은 유일한 인덱스 값을 가져야함. 중복된 인덱스 값을 가질 수 없음불변성(Immutability) : 불변성을 가짐. 즉, 한 번 생성된 인덱스는 변경(수정)할 수 없음단, 새로운 값을 할당하여 기존 인덱스를 대체하는 것은 가능 조작 및 탐색(Manipulation and Retrieval) : 인덱스를 사용하여 데이터프레임 또는 시리즈의 특정 행을 선택하거나 탐색할 수 있음 정렬(Sorting) : 인덱스를 기준으로 데이터프레임 또는 시리즈의 행을 정렬할 수 있음  예시) 다음과 같은 데이터프레임을 생성하였다.df = pd.DataFrame({ 'A' : [5, 6, 1], ..
✳️ 데이터 불러오기와 저장하기불러오기 : .read_* 파일을 불러오는 method로, ' * ' 에는 파일 형식을 넣어주면 된다. 저장하기 : to_* 저장을 하기 위한 method로, 마찬가지로 ' * ' 에 파일 형식을 입력하면 된다. 코드 예시)# panas를 이용할 것이기 때문에 pandas를 불러와준다. import pandas as pd # seaborn 라이브러리에서 내장 데이터를 불러와 실습할 것이라서 불러와줌. import seaborn as sns먼저 필요한 라이브러리를 import 해준다.data = sns.load_dataset('tips') dataseaborn에 내장 되어 있는 'tips' 데이터셋을 data 변수에 할당해준다. ⭐ 데이터 저장하기 먼저 이 'tips' 데이터..
▼ map과 apply에 대한 개념 정리https://se0ehe.tistory.com/121 [Pandas] map, apply, applymap - (2.2.2 version)map과 apply의 큰 차이.. 바로 map은 시리즈에서만, apply 시리즈와 데이터프레임에 모두 활용해볼 수 있다는 점이었는데.. 막상 해보니까 아니 map도 데이터프레임에서 되는디요..? 해서 팀원분과 함se0ehe.tistory.com   🔒 56번) 데이터를 로드하고 데이터 행과 열의 개수를 출력하라url = 'https://raw.githubusercontent.com/Datamanim/pandas/main/BankChurnersUp.csv'🔓 해결 방법import pandas as pdurl = 'https:/..
✳️ agg( )aggregate라는 축약어로 여러 함수들을 모아서 연속적으로 적용시킬 수 있는 method df.agg(func=None, axis=0, args, kwargs)func : 함수axis :{0 : index(row) / 1 : columns} 축으로 0은 행, 1은 열 arg : 함수의 인수kwargs : dict 형태의 함수의 인수  https://wikidocs.net/152680 03-04. 함수연속적용_축별 (aggregate, agg)####DataFrame.aggregate(func=None, axis=0, args, kwargs) ####DataFrame.agg(func=None, axis=0, args,…wikidocs.net
✳️ isin( ): 데이터프레임 객체의 각 요소가 값과 일치하는지 여부를 bool 형식으로 반환하는 method df.isin(values)value : Iterable, Series, DataFrame, dict등이 올 수 있습니다.Series일 경우 : Index가 일치해야 합니다.DataFrame일 경우 : Index와 열 레이블이 일치해야 합니다.Dict일 경우 : key는 열 레이블 입니다. 예시)# 다음과 같은 데이터프레임이 있다고 가정 col1 col2 col3row1 1 1 1row2 2 3 4row3 5 3 6 🔹list로 활용> 리스트를 이용해서 1과 3이 포함된 요소를 확인result = df.isin([..
✳️ unstack : index to column파라미터 level: unstack을 수행할 인덱스 레벨을 지정여러 개의 레벨을 지정할 수 있으며, 이 경우 데이터프레임이 멀티인덱스를 가지게 됨기본값은 -1로, 마지막 인덱스 레벨을 사용fill_value: unstack을 수행한 결과에서 결측값을 채울 값을 지정기본값은 None으로, 결측값을 그대로 둠 dataframe.unstack(level = -1, dropna == True)level : default 값은 -1이고, 하나의 index 혹은 columns를 쌓을 수준 (한 번에 여러 level을 선택할 수 없다.)dropna : default 값은 True 이고, False로 설정할 경우, nan 값이 출력됨 ➕ 예시)이러한 데이터가 있다고 가..
✳️ Pandas구조화된 데이터를 효과적으로 처리하고 저장할 수 있는 파이썬 라이브러리대용량 데이터 처리가 가능 : Pandas는 데이터를 메모리에 로드하고, 다양한 연산을 빠른 처리가 가능하며 대용량 데이터를 처리하는데 최적화.데이터 조작 기능 : 데이터 정렬, 필터링, 집계, 결측값 처리 등 데이터를 쉽게 가공할 수 있음데이터 시각화 기능 제공 : Matplotlib, Seaborn , … , etc데이터를 구조화하여 분석 가능 : DataFrame이라는 자료형을 제공하여 데이터를 표 형태로 나타내어 분석이 가능  ⭐ 데이터 다룰 때... Excel보다 Pandas?1. 자동화와 프로그래밍 기능Pandas는 다양한 라이브러리를 사용하여 데이터를 불러오고, 변환하며, 분석할 수 있다. 이를 통해 반복적..
se0ehe
'📒 Today I Learn' 카테고리의 글 목록 (7 Page)