Tableau(태블로)는 데이터 시각화에 좋은 도구입니다. 무료로 다운로드하여 14일 동안 경험해 볼 수 있습니다. 차트 그리기는 엑셀보다 쉽고, 빠르며, 직관적입니다. 오늘은 박스 플롯을 사례로 정리해 보겠습니다.
박스 플롯은 엑셀로 차트를 표현했던 분들에게는 생소할 수 있습니다. 그러나 박스 플롯은 정상 범위를 벗어나는 '아웃라이어'를 쉽게 찾을 수 있게 해 줍니다. 먼저 정규 분포도에 대해 간단히 살펴보아 쉽게 통계적 개념을 이해할 수 있도록 정리하겠습니다.
박스플롯과 정규분포의 이해
위 그림은 박스 플롯과 정규분포도와 비교함으로써 박스 플롯의 통계적 의미를 설명하였습니다.
기초 통계
1. 중앙 값(Median)
말 그대로 데이터 셋의 정중앙에 있는 값을 의미합니다. 그러면 이건 어떻게 구할 수 있을까요? 간단합니다. 데이터 개수가 n이라면 n에 1을 더한 후에 2를 나누면 됩니다. 예제를 통해서 알아보겠습니다.
데이터 수 9개 (홀수) : 1 1 2 4 3 5 8 8 9
데이터 수 10개(짝수) : 1 1 2 3 4 6 8 9 8 10
위의 예제에서 보면 총데이터가 홀수인 경우와 짝수인 경우를 나누어서 설명하겠습니다. 총데이터의 개수가 9개인 경우는 먼저 데이터 셋을 오름차순으로 정렬한 후 (n+1)/2를 계산합니다. 즉, (9+1)/2를 하면 5가 됩니다. 그러면 5번째 값을 오름차순으로 정리한 데이터에서 찾으면 그것이 바로 중앙값(median) 되는 것입니다. 즉 M=3 입니다.
총 데이터의 개수가 10개인 경우는 (10+1)/2 = 5.5가 되므로, 이때에는 5번째(4)와 6번째(6) 값을 찾은 후에 그것의 절반을 구하면 됩니다. 즉, (4+6)/2 = 5로 하여 M=5가 됩니다.
2. IQR(InterQuartile Range)
위 정규분포의 그림에서 데이터의 범위를 사분 범위로 먼저 구분한 후 중간에 50%의 데이터들이 흩어진 정도를 의미합니다. 그래서 Q3 - Q1으로 IQR은 구해질 수 있는데, 여기서 Q1은 데이터의 중앙값과 맨 아래의 값의 중앙값을 의미하고, Q3은 데이터의 중앙값과 맨 위의 값의 중앙값을 의미합니다.
3. 사분위 양 끝단
아래 끝단 값은 Q1-(1.5*IQR), 위 끝단 값은 Q3+(1.5*IQR)를 계산하여 사분위 양 끝단을 계산합니다.