오늘부터 데이터 리터러시에 대한 강의가 열렸다. 데이터 문해력 책과 더불어 같이 학습하면 좋을 것 같다. 설명만 들어보면 쉬운 것 같아 보이지만.. 직접 생각해보는 시간에서는 생각보다 어려웠다. 얼만큼 그 분야에 관심이 있고 생각하는 법을 훈련해 왔는지에 따라 좀 더 구조적인 문제 정의와 세분화를 할 수 있겠구나 라고 생각이 들었다. 오늘은 데이터의 유형까지 강의를 보았고 이에 대한 내용을 각각의 글로 정리한다.
✳️ 데이터 리터러시 (Data Literacy)
주구장창 중요하다고 들어온 이 말은 도대체 언제까지 우려먹을 것인가? 응 계속~ㅋㅋㅋ
데이터를 읽는 능력
데이터를 이해하는 능력
데이터를 비판적으로 분석하는 능력
결과를 의사소통에 활용할 수 있는 능력
이라고 한다.. 말하자면 '데이터 해결사' 느낌.. 데이터계의 고죠 사토루가 되기 위해서는 이 리터러시 능력이 아주 잘 갖춰져야 한다고 느꼈다.
💯 데이터 분석 접근법
'생각'은 소프트 스킬이다. 우리가 잘 훈련시켜서 성장해야할 부분!
항상 왜? 라는 생각으로 이야기를 그려가봐야 한다.
내가 작업 전에 알고 싶은 것, 이야기 해볼 것, 작업 후에 전달하고 싶은 것을 중점으로 두고 생각하는 것이 중요 (목적 사고 방식)
🚫 데이터 분석은 이렇게 하는 것이 아니라구요
데이터만 분석한다고 뭐가 보일 것 같나요? 아닙니다!!!!!!!!!!!! 그저 데이터 분석결과 짜집기는 좋은 분석이 아니라고 한다. 그래서 데이터를 '분석'하는 능력만 타고났다고 해서 우린 좋은 분석가라고 여기지 않고 스토리라인을 그릴 수 있는 분석가를 원하는 것 같다.
❌ 데이터 해석 오류 사례
심슨의 역설(simpson's paradox) : '부분'에서 성립한 대소 관계가 그 부분들을 종합한 '전체'에 대해서는 성립하지 않는 모순적인 경우 영국의 통계학자 에드워드 심슨이 정리한 역설이라 이름이 심슨의 역설이 되었당
각각의 변수에 신경을 쓰지 않고 전체 통계 결과를 유추하다 보니 사람들의 직관과 반대되는 역설적인 상황이 발생해버리는 것이다.
시각화를 활용한 왜곡 : 자료의 표현 방법에 따라서 해석의 오류 여지가 존재하는 경우
샘플링 편향 : 전체를 대표하지 못하는 편향된 샘플 선정으로 인해 오류 발생
상관관계와 인과관계 : 상관관계는 인과관계가 아닌 것을 유의하며 두 관계를 모두 활용하여 합리적인 의사를 판단해야 한다.
상관관계 - 두 변수가 얼마나 상호 의존적인지를 파악하는 것을 의미 - 파악 방법은 한 변수가 증가하면 다른 변수도 따라서 증가/감소하되 그 추이를 따름
인과관계 - 하나의 요인으로 인해 다른 요인의 수치가 변하는 형태를 의미 - 원인과 결과가 명확한 것