따블로

반응형

안녕하세요. D2C(Direct to Consumer) 시대가 코로나로 인해 몇 년은 훅 당겨진 것 같습니다. 하여 나만의 경쟁력을 키우기 위해 태블로를 공부하면서 데이터 분석하는 방법을 배우기 시작했고, 태블로를 통해 깨달은 내용들을 정리해 봅니다.  이렇게 정리를 꾸준히 하다 보면 어느 날 성장해 있는 나를 기대해 봅니다. 혹 저와 같은 고민을 하는 분이 있다면 그분들에게도 도움이 되면 좋겠습니다.


오늘은 데이터 전처리를 하는 방법을 정리해 보겠습니다. 데이터 전처리란 태블로가 이해하기 쉽게 원본데이터는 그대로 있으면서 태블로가 사본 데이터를 만들어 깔끔하게 정리하는 것입니다. 

 

위 엑셀 데이터는 'T머니 카드 페이' 사이트에 가시면 월별로 다운로드할 수 있어요. 저는 2020년 6월 데이터를  다운로드하였습니다. 위 자료는 1행에 제목이 있고, 2행에는 데이터가 비어 있네요. 또한 3행, 4행은 셀 병합이 되어 있는 데다가 시간도 가로로 길게 나열되어 되어 있습니다.  이것을 태블로가 어떻게 전처리를 하는지 점검해 보겠습니다.

 

먼저 엑셀 데이터를 불러옵니다. 불러온 파일에는 위와 같이 왼쪽 패널에 4개의 시트로 되어 있는데 저는 '지하철 시간대별 이용현황'을 데이터 시각화하려고 캔버스에 올렸습니다.

 

올렸더니 위와 같이 'null'값도 보이고 필드명은 F2, F3, F4... 등 이상하죠?

 

이때 저는 왼쪽 패널에서 데이터 해석기 사용에 체크를 합니다. 데이터 해석기는 엑셀의 원본을 건드리지 않으면서 태블로가 사본을 만들어 이해하기 좋게 해석한 사본을 생성합니다. "결과를 검토하십시오"를 클릭하면 아래와 같은 해석된 엑셀 파일(사본)이 오픈됩니다. 

 

제목도 사라졌고, 병합되어 있던 셀도 모두 각 셀로 분리시켜 주었습니다.  태블로 참 똑똑하죠? 

 

위 그리드를 보면 아까와 다르게 필드명이 정리가 되어 있습니다. 이제 가로로 길게 되어 있는 시간대를 피벗으로 정리해 보겠습니다.

 

위와 같이 첫 번째 시간 04:00:00~ 의 필드명을 클릭한 후 Shift 키 누른 상태에서 03:00:00의 필드명을 클릭해주면 모두 파란색으로 하이라이트 되면서 선택이 됩니다. 그리고 우클릭해서 피벗을 선택합니다.

 

그러면 위와 같이 가로로 길게 늘어져있던 시간대가 세로로 정리가 됩니다. 그리고 위 그림의 시간대와 승차, 하차를 분리해 줍니다.

 

  분리하는 방법은 위 사진처럼 시간대 피벗 필드명을 우클릭하고 사용지 지정 분할 메뉴를 선택해 줍니다.

 

구분 기호 사용에는 공란을 뜻하는 스페이스 바를 눌러주고, 분할 해제는 전체를 선택합니다.  왜? 시간대와 승차, 하차를 구분해 주어야 하므로 그렇습니다.

 

위와 같이 시간대와 승차, 하차가 1개 필드에서 각각 2개 필드 즉 시간대와 승차, 하차로 구분되어졌습니다.

 

시간대와 승차, 하차가 1개로 묶였던 필드는 불필요하므로 위와 같이 숨기기 처리합니다.

그리고 몇 가지 처리를 하게 되면 아래와 같이 시간대별 승차 하차 인원으로 데이터 시각화를 끝낼 수 있습니다.

 

위와 같이 데이터 시각화하려면 어떻게 해야 하는지는 다음 포스팅에서 정리하겠습니다. 

반응형

공유하기

facebook twitter kakaoTalk kakaostory naver band