💟 팟캐스트 사업의 개선안내가 했던 내용만을 정리를 해본다!프로젝트의 내용은 요금제 부분에서 개선해야한다는 관점과 팟캐스트 사업의 방향과 개선안을 제시하는 파트로 나눠서 진행을 했는데 나는 이 중 개선안을 제시하는 부분을 맡아 데이터를 분석해 의견을 제시했었다.앞선 결측치 분석을 통해 팟캐스트에 대한 것은 이를 활용하자는 것을 제안했었고, 팟캐스트에 관심이 없다라는 것을 다른 분이 데이터적으로 파악해주셨다. 그래서 팟캐스트 사업은 무리한 확장은 하면 이익손실이 있을 것으로 보여졌고 실제로 사업의 흐름을 조사해보면 팟캐스트 사업에 많은 투자가 이루어졌다가 적자가 난 부분도 볼 수 있었다.그래서 우리의 방향은 무리한 확장 x, 내실 강화 쪽으로 진행하는 것이 맞다고 생각했고, 이를 위한 데이터 분석을 다음..
전체 글
🥔💬➡✍🏻➡🍟✨💟 데이터 전처리 및 EDA☑️ 데이터 전처리- 우리 조가 선택한 데이터의 가장 까다로운 점은 대부분 범주형 데이터였다는 점- 결측치가 존재하는 컬럼이 5개였던 점이러한 문제점이 존재해서 데이터를 전처리할 때 다음과 같이 전처리를 해줬다. 1️⃣ 나이 컬럼의 재범주화와 다중응답 처리나이 재범주화나의 범주를 살펴보면 다소.. 기존 데이터가 애매하게 범주를 나눠진 상태였다.우리 조는 이 나이 범주를 20세 미만, 20-35세, 35세 이상으로 기준을 다시 나눠서 다음과 같은 코드로 데이터를 재범주화 시켰다.df['Age'] = df['Age'].replace({'6-12' : 'under_20', '12-20' : 'under_20', '35-60' : 'over_35', '60+' : 'over_35'}..
💟 프로젝트 개요☑️ 행동 데이터(행동패턴) 분석은 모든 도메인에서 중요한 의미를 가지고 있습니다.☑️ 행동 데이터를 통해 고객의 니즈를 파악하고, 이에 맞춰 액션 플랜(추천)을 제공하기도 합니다.☑️ 해당 프로젝트의 목적은 데이터 EDA 를 진행하고 결과를 도출하는(보여주는) 것으로 생각해주세요. 🔹데이터 소개 https://www.kaggle.com/datasets/meeraajayakumar/spotify-user-behavior-dataset/data Spotify User Behavior DatasetA Comprehensive Spotify Dataset for User Analysiswww.kaggle.comData Shape : 520 row, 20 columnsData Types- ..
✳️sort sql의 order by처럼 정렬을 하는 method가 존재sort_value() : 값을 기준으로 정렬sort_index() : 인덱스를 기준으로 정렬by= : 어떤 컬럼의 값을 기준으로 할지 정할 수 있음(by='컬럼명')ascending=True or False : 오름차순 (True)이 기본이며 내림차순(False)도 설정 가능 예시)예시들을 내 입맛에 맞춰 변경해서 실습해봤다 😝df = pd.DataFrame({ 'Name': ['변준형', '이정현', '문성곤', '최성원', '박지훈'], 'Backnumber': [5, 6, 10, 19, 6], 'Score': [32, 37, 21, 27, 30]})df 인덱스로 정렬하기- 기본 값으로는 오름차순이지만 인덱스를..
✳️ groupby( )Group by 함수는 데이터프레임을 그룹화그룹 단위로 데이터를 분할(split), 적용(apply), 결합(combine)하는 기능을 제공데이터프레임을 특정 기준에 따라 그룹으로 나누어 집계, 변환, 필터링 등 가능그룹 생성 : 기준 열(혹은 열들)을 지정하여 데이터프레임을 그룹으로 나눔그룹에 대한 연산 수행 : 그룹 단위로 원하는 연산(평균, 합, 개수 등)을 수행결과 결합 : 각 그룹의 연산 결과를 하나의 데이터프레임으로 결합하여 새로운 데이터프레임을 생성df = pd.DataFrame({ 'Category': ['A', 'B', 'A', 'B', 'A', 'B'], 'Value': [1, 2, 3, 4, 5, 6]})df 예시)df.groupby('Category..
✳️ concat데이터프레임을 위아래로 혹은 좌우로 연결axis : 연결하고자 하는 축(방향)을 지정. 기본값은 0으로, 위아래로 연결하는 경우에 해당. 1로 설정하면 좌우로 연결ignore_index : 기본값은 False이며, 연결된 결과 데이터프레임의 인덱스를 유지. True로 설정하면 새로운 인덱스를 생성 (True → 기존 인덱스를 무시하고 새롭게 인덱스를 설정) 예시)df1 = pd.DataFrame({'A': ['A0', 'A1', 'A2'], 'B': ['B0', 'B1', 'B2']})df2 = pd.DataFrame({'A': ['A3', 'A4', 'A5'], 'B': ['B3', 'B4', 'B5']}) 좌우로 연결하기pd.concat([df1, df2]).reset_index(dr..
✳️ 신규 컬럼 추가하기df = pd.DataFrame()df['컬럼명'] = data# df라는 데이터프레임에 '컬럼명'이라는 이름의 컬럼이 추가되고,해당 컬럼에 data라는 값이 추가된다.# 이때, data값이 1개의 단일 값인 경우에는 전체 df라는 데이터프레임 행에 data 값이 전체 적용됨# 즉, # 하나의 값인 경우 => 전체 모두 동일한 값 적용# (리스트,시리즈)의 형태인 경우 => 각 순서에 맞게 컬럼 값에 적용됨 예시)df = pd.read_csv('tips_data.csv')df df['created_at'] = '2024-01-01'dfcreated_at라는 컬럼이 생성되었다. df['revenue'] = df['total_bill'] + df['tip']dftotal_bill 컬럼..
✳️ Boolean indexing특정 조건을 만족하는 데이터를 선택할 경우에 사용한다.데이터를 필터링하거나 원하는 조건을 만족하는 행을 추출 가능불리언 값을 가지는 조건식을 사용하여 데이터프레임을 인덱싱하는 방 df = pd.read_csv('pandas_practice/tips_data.csv')df boolean indexing은 조건을 형성할 때 유용하다! # 데이터 프레임을 불러올 때, [] 안에 조건을 넣으면 조건에 대해 참인 경우를 출력df[df['sex'] == 'Male'] 교집합 ( & )df[(df['sex'] == 'Male') & (df['smoker'] == 'Yes')] 합집합 ( | )df[(df['sex'] == 'Male') | (df['smoker'] == 'Yes'..
✳️ iloc & loc해당 내용을 따로 정리 했던 적이 있어서 링크 걸고 실습한거 정리!https://se0ehe.tistory.com/106 [Pandas] .loc[ ] & .iloc[ ]2024.07.15 ✳️.loc[ ]loc는 location의 약어이다.데이터 프레임의 행 또는 열을 label이나 boolean array로 인덱싱하는 방법이다.사람이 읽을 수 있는 라벨 값으로 특정 값들을 골라오는 방법!df.loc[행,se0ehe.tistory.com ⭐ ilocdf = pd.DataFrame({ 'A' : [1,2,3,4,5], 'B' : [10,20,30,40,50], 'C' : [100,200,300,400,500]})df원하는 행의 값을 확인df.iloc[0] #..
📓 배우고 해낸 것데이터 전처리 강의 완강 - pandas, matplotlib, seaborn판다스 연습 (데이터마님) - chapter 4까지판다스 모듈 개념 정리Python study & TIL study를 통한 python sql 학습Python 코드카타 하루에 1문제는 꼭 풀기 👍🏻 칭찬할 점나름 라이브러리를 이용하는 것, 찾아보고 시도해보는 것을 배움판다스 개념 정리를 하면서 실습한 것주말에 과제에 도전을 해본 점파이썬 코드카타를 매일 해봤던 것튜터님께 질문하고 해답을 얻은 것 👎🏻 개선할 점파이썬 알고리즘 더 연습하기(오래 걸리더라도!)sql 잊지 않도록 코드카타 다시 시작알고리즘의 중요성을 더욱 생각하기 💗 느낀점이번 주에는 팀스터디로 데이터 마님이라는 사이트에 빅분기 기출 100문제로 판..