따블로

반응형

안녕하세요. D2C(Direct to Consumer) 시대가 코로나로 인해 몇 년은 훅 당겨진 것 같습니다. 하여 나만의 경쟁력을 키우기 위해 태블로를 공부하면서 데이터 분석하는 방법을 배우기 시작했고, 태블로를 통해 깨달은 내용들을 정리해 봅니다.  이렇게 정리를 꾸준히 하다 보면 어느 날 성장해 있는 나를 기대해 봅니다. 혹 저와 같은 고민을 하는 분이 있다면 그분들에게도 도움이 되면 좋겠습니다.


오늘은 박스 플롯을 통해 수익성을 비교하는 방법을 정리해 보도록 하겠습니다. 지난 번 자료에서는 산포도를 통해 두 차원 사이의 상관관계를 살펴보았다면 박스 플롯은 데이터 집계 결과를 4 분위로 구분하여 데이터들이 어떤 값을 중심으로 중심 경향성을 보이는지, 특이값(outlier)은 어떤 것인지 분포도를 살펴보고 차원 간 이를 서로 비교할 때 사용합니다.

태블로를 통해 지역별 수익성을 비교해 보려고 만든 박스 플롯입니다. 이 플롯은 어떻게 구성되어 있고, 어떤 의미가 있는지 살펴보도록 하겠습니다.

 

<해석 >
박스플롯은 기본적으로 수집한 Data(자료)에서 얻은 5가지 수치 요약을 가집니다.

 

1. 최솟값 : Q1 - (Q1*1.5 IQR)입니다.
2. Q1(1 사분위) : 데이터들의 25%의 위치값
3. Q2(2 사분위) : 50%의 위치하는 중앙값(Median)
4. Q3(3 사분위) : 75%의 위치값

5. 최댓값 : Q3 + (Q3*1.5 IQR)입니다.

 

* IQR(inter-quartile range)란 "Q1"과 "Q3" 사이의 범위를 의미합니다.

 

만일 Q1이 "2" 이고, Q3이 "6" 이라고 하면 IQR은 6-2 = "4"가 됩니다. 따라서 박스 플롯의 최댓값과 최솟값은 아래와 같이 구해집니다.

 

*최댓값은 Q3 + 1.5*IQR = 6+(1.5*4) = 12 입니다.

*최솟값은 Q1 - 1.5*IQR = 2-(1.5*4) = -2 입니다.

따라서 "특이값(outlier)"이란 최댓값을 초과하거나 최솟값에 미달된 값을 의미합니다.

 

그래서 만일 14 라는 값이 있다면 최댓값보다 크기 때문에 이를 "특이값(outlier)"으로 판단하고, -4라는 값이 있다면 최솟값보다 작기 때문에 그 역시 "특이값(outlier)"으로 판단합니다. 일반적으로 통계를 구할때는 이런 "특이값"은 필요에 따라 대체값으로 치환하거나 제거합니다.

 

이제 박스 플롯의 개념을 정리하셨으니 아래 주석이 들어간 박스 플롯을 다시 보시면 제품별 수익성 분포를 지역별로 비교하고자 만들었다는 의미를 파악하셨을 겁니다.

 

그럼 이제 태블로를 통해 어떻게 박스 플롯을 만드는지 정리해 보겠습니다.

 

먼저 위와 같이 데이터차원탭에서 1.수익을 클릭 한 후 Ctrl을 누르고 2. 서브카테고리를 클릭 한 후 오른쪽 표현방식에서 3. 박스 플롯을 선택하면 캔버스에 위와 같이 박스 플롯이 뿌려집니다. 다음에는 "Region" 을 클릭하여 열(X축)에 드래그 앤 드롭을 합니다. 그리고 보기를 전체보기로 선택해 줍니다.

 

 

그리고 원의 크기를 매출에 크기에 비례하도록 측정값 "Sales"를 마크 카드의 "크기"로 드래그 앤 드롭한 후 크기를 좀 키워 주고, 다시 측정값의 "Profit"을 마크 카드의 색상에 드래그 앤 드롭을 합니다. 

 

이제 원의 크기는 매출의 크기에 비례하며, 원의 색상은 이익일 경우 푸른색, 손실일 경우 붉은색으로 처리된 것을 알 수 있습니다. 

 

<해석>

1. Central 지역의 수익성은 타지역에 비해 좋지 않다. (=손실로 보이는 붉은색 점이 타 지역에 비해 많다)

2. East 지역은 타 지역에 비해 중앙값이 가장 높아 수익성이 좋아 보이지만 최솟값이 타 지역에 비해 낮은 것이 있으니 어떤 제품이 그러한지 점검이 필요하다.

3. South 지역은 특이값이 위 아래로 1개씩 있으니 점검이 필요하다.

4. West 지역은 타 지역에 비해 수익성 분포도가 안정적이다.

 

 

감사합니다.

공유하기

facebook twitter kakaoTalk kakaostory naver band