✳️ Pandas
- 구조화된 데이터를 효과적으로 처리하고 저장할 수 있는 파이썬 라이브러리
- 대용량 데이터 처리가 가능 : Pandas는 데이터를 메모리에 로드하고, 다양한 연산을 빠른 처리가 가능하며 대용량 데이터를 처리하는데 최적화.
- 데이터 조작 기능 : 데이터 정렬, 필터링, 집계, 결측값 처리 등 데이터를 쉽게 가공할 수 있음
- 데이터 시각화 기능 제공 : Matplotlib, Seaborn , … , etc
- 데이터를 구조화하여 분석 가능 : DataFrame이라는 자료형을 제공하여 데이터를 표 형태로 나타내어 분석이 가능
⭐ 데이터 다룰 때... Excel보다 Pandas?
1. 자동화와 프로그래밍 기능
- Pandas는 다양한 라이브러리를 사용하여 데이터를 불러오고, 변환하며, 분석할 수 있다. 이를 통해 반복적이고 복잡한 작업을 자동화할 수 있다.
- 엑셀은 시각적 사용자 인터페이스를 통해 데이터를 다루는 스프레드시트 프로그램이다. 작업은 주로 수동으로 수행되며, 고급 기능을 프로그래밍적으로 확장하기가 어렵다.
2. 대용량 데이터 처리
- Pandas는 대용량 데이터를 처리하는 데 유용하다. 메모리 내에서 데이터를 처리하거나, 큰 데이터 세트를 조각으로 나누어 처리할 수 있는 기능을 제공한다.
- 엑셀은 상대적으로 작은 크기의 데이터셋을 다루는 데 적합합니다. 매우 큰 데이터를 처리할 경우에는 처리 속도가 느려질 수 있고, 파일 크기 제한 등의 제약이 있을 수 있다.
3. 복잡한 데이터 처리 및 분석
- Pandas는 데이터 분석 및 처리를 위한 다양한 도구와 라이브러리를 활용가능하며, 데이터를 다양한 방식으로 조작하고 분석할 수 있다. 이를 통해 복잡한 데이터 작업, 통계 분석, 머신러닝 모델 구축 등이 가능하다.
- 엑셀은 기본적인 수식과 함수를 통해 데이터를 처리하고 시각화할 수 있지만, 복잡한 데이터 조작이나 분석에는 제약이 있을 수 있다.
4. 확장성과 유연성
- Python은 다양한 데이터 포맷을 처리할 수 있는 라이브러리를 지원하며, 데이터베이스와 연동하여 작업할 수 있는 등 매우 유연하다.
- 엑셀은 주로 특정 데이터 형식의 파일 (.xlsx, .csv 등)을 다루는 데에 제한되어 있다.
5. 버전 관리
- Python 코드는 버전 관리 시스템(Git 등)을 사용하여 변경 내역을 관리하고, 코드 자체에 주석을 추가하거나 문서화할 수 있어 작업 히스토리를 추적하기 용이하다.
- 엑셀은 사용자가 직접 수정하기 때문에 변경 사항을 추적하거나 문서화하기 어려울 수 있다.
❇️ Pandas의 구조
🔹 시리즈 (Series)
: 1차원 배열의 형태로 인덱스라는 한 가지 기준에 의해 데이터가 저장된다.(즉, 열이 1줄!)
🔹 데이터 프레임 (DataFrame)
: 2차원 배열의 형태로 인덱스와 컬럼이라는 두 가지 기준에 의해 표 형태처럼 데이터가 저장된다.
'📒 Today I Learn > 🐼 Pandas' 카테고리의 다른 글
[Pandas] 데이터 불러오기 / 저장하기 (0) | 2024.07.18 |
---|---|
[Pandas] Apply & Map (0) | 2024.07.17 |
[Pandas] Filtering & Sorting (2) (0) | 2024.07.15 |
[Pandas] Filtering & Sorting (1) (0) | 2024.07.12 |
[Pandas] Getting & Knowing Data (2) (0) | 2024.07.11 |