[BIGDATA] 1-4 BI 도구와 모니터링
빅데이터의 기초 지식
BI 도구와 모니터링
‘데이터 탐색’에 있어서 중요한 것은 우선 큰 그림을 파악한 후에 점차 세부 사항으로 깊이 들어가는 것이다.
스프레드시트에 의한 모니터링 - 프로젝트의 현재 상황 파악하기
데이터를 살펴보고 싶을 때 이용하는 것이 애드 혹 분석이라면, 보다 계획적으로 데이터의 변화를 추적해 나가는 것이 ‘모니터링(monitoring)’이다.
데이터라는 것은 현재 상황을 파악하기 위한 하나의 도구로 사용할 수 있다.
즉, 자신의 다음 행동을 결정하기 위한 재료로서 데이터를 살펴본다는 의미다.
데이터의 변화를 모니터링하고 만약 예상과 다른 움직임이 있다면, 그때는 행동을 해야 한다.
여기에는 사람의 판단이 필요하다.
데이터에 근거한 의사 결정 - KPI 모니터링
프로젝트의 현황을 파악하기 위한 숫자로 업계마다 중요한 지표인 ‘KPI(key performance indicator)’가 자주 이용된다.
다음은 여러 산업에서 사용되고 있는 KPI의 예다.
-
웹 서비스의 KPI 약칭|정식 명칭|의미 —|—|— DAU|Daily Active User|서비스를 이용한 1일 유저 수 계속률|Customer Retention|서비스를 계속해서 이용하고 있는 유저의 비율 ARPPU|Average Revenue Per Paid User|유로 고객 1인당 평균 매출
-
온라인 광고의 KPI 약칭|정식 명칭|의미 —|—|— CTR|Click Through Rate|광고의 표시 횟수에 대한 클릭 비율 CPC|Cost Per Click|1회 클릭에 대해서 지불한 광고비 CPA|Cost Per Acquisition|1건의 고객 취득을 위해 지불된 광고비
KPI 모니터링에서 의식하고 싶은 것은 그것이 ‘행동 가능(actionable)’한 것인가이다.
즉, 그 결과에 따라 자신의 다음 행동이 결정될지의 여부다.
중요한 것은 좋든 나쁘든 목표와 결과가 다르다면 행동을 해야 한다.
자신의 행동을 결정할 때 직감에 의지하는 것이 아니라 객관적인 데이터를 근거하여 판단하는 것을 ‘데이터 기반(data-driven) 의사 결정’이라고 한다.
다음은 의사 결정의 재료로 데이터를 이용하는 한 가지 방법이다.
월간 보고서 (스프레드시트에 의한 보고서 작성과 그 한계)
목표와 실적을 모니터링하기 위해 한 달에 한 번 ‘월간 보고서’를 만든다고 하자.
여기에는 보고서의 중요한 지표를 정리해야 한다.
예나 지금이나 이러한 보고서 작성에 이용되는 것이 스프레드시트다.
원시적이긴 하지만, 수작업으로 숫자를 입력하는 정도는 유연성이 있다.
섣불리 이를 시스템화하면 나중에 손 보는 것이 오히려 어려워진다.
스프레드시트에는 어려운 것이 두 가지 있다.
하나는 보고서에 입력하는 숫자를 어디선가 계산해야 한다.
이를 위해 준비된 것이 데이터 웨어하우스이며, 거기서 실행되는 배치 처리다.
이것은 워크플로로 자동화할 수 있다.
다른 하나는 상세한 내역을 조사할 수 있게 하는 것이다.
예를 들면 상품별 매출과 원가를 바로 확인할 수 있어야 변화의 원인에 겨우 도달할 수 있다.
이를 위해 사용되는 것이 바로 ‘BI 도구’다.
변화를 파악하고 세부 사항을 이해하기 - BI 도구의 활용
BI 도구가 어떤 것인지를 알고 싶다면, 실제로 사용해보는 것이 가장 좋다.
다음은 무료로 사용할 수 있는 BI 도구다.
| 명칭 | 종류 |
|---|---|
| Tableau Public | 데스크톱 + 웹 서비스 |
| Quick Sencse | 데스크톱 + 웹 서비스 |
| Microsoft Power BI | 데스크톱 + 웹 서비스 |
| 구글 Data Studio | 웹 서비스 |
여기에서는 예로 ‘Tableau Public’을 사용한다.
Tableau Public은 주로 블로그 등에서 공개하는 데이터를 위해 만들어져 있으므로 회사 내의 데이터를 분석하는 데는 적합하지 않지만, BI 도구의 기능을 이해하는 데는 충분하다.
BI 도구는 고속의 집계 엔진을 내장하고 있어 수백만 레코드 정도의 스몰 데이터라면 순식간에 그래프를 그려준다.
BI 도구로 읽어 들일 정보를 늘림으로써 시각화할 수 있는 범위가 넓어진다.
예를 들어, 어떤 웹페이지의 액세스가 증가하고 있는지 알고 싶다고 하자.
매일의 데이터 전송량을 요청(request)할 때마다 재집계하여 색깔로 분류하면 액세스가 급증한 웹페이지를 한 눈에 알 수 있다.
모니터링의 기본 전략 및 BI 도구 (정기적인 보고서에 의한 변화 파악과 재집계)
데이터의 움직임을 모니터링하기 위한 기본적인 전략은 우선 정기적인 보고를 통해 중요한 변화를 파악하는 것이다.
그리고 그 원인을 알고 싶은 경우에는 원인이 되는 데이터로 돌아와 재집계를 반복하면서 자세히 살펴보는 것이다.
BI 도구는 그것을 위한 소프트웨어이며, 데이터를 자세히 탐색할 때 그 힘을 발휘한다.
문제는 항상 이상적인 데이터가 존재한다고는 할 수 없다는 점이다.
원하는 대로 집계 결과를 얻으려면 ‘시각화하기 쉬운 데이터’를 만들어야 한다.
수작업과 자동화해야 할 것의 경계를 판별하기
BI 도구로 결과를 보기 위해서는 베이스가 되는 데이터가 입맛에 맞게 정리되어 있어야 한다.
제대로 설계된 데이터가 없다면, 자신의 생각과 딱 맞는 화면을 만들 수 없다는 점이 BI 도구의 한계다.
수작업으로 할 수 있는 것은 수작업으로 해두기
‘월간 보고서’처럼 일관성이 높은 것이 필요한 때는 각 화면에서 숫자를 가져와 스프레드시트에 수동으로 입력하면 끝난다.
BI 도구를 위한 새로운 테이블을 설계부터 시작하기보다는 한 달에 한 번씩 수동으로 하는 것이 더 쉬울 것이다.
자동화하려는 경우에는 데이터 마트를 만든다
자주 업데이트되는 데이터와 다수의 사람에게 공유되는 데이터 등 중요성이 높은 것은 차례로 자동화해 나간다.
시각화의 바탕이 되는 데이터를 SQL 또는 스크립트를 사용해서 생성하고 그것을 BI 도구로부터 읽어 들인다.
-
BI 도구에서 직접 데이터 소스 접속하기
- 장점: 시스템 구성이 간단하다.
- 단점: BI 도구 측에서 지원하지 않는 데이터 소스에는 접속할 수 없다.
-
데이터 마트를 준비하고, 그것을 BI 도구로부터 열기
- 장점: 어떤 테이블이라도 자유롭게 만들 수 있다.
- 단점: 데이터 마트의 설치 및 운영에 시간이 걸린다.
-
웹 방식의 BI 도구를 도입하여 CSV 파일을 업로드하기
- 장점: 스크립트로 자유롭게 데이터를 가공할 수 있다.
- 단점: 데이터의 생성 및 업로드에 프로그래밍이 필요하다.