[BIGDATA] 1-2 빅데이터 시대의 데이터 분석 기반
빅데이터의 기초 지식
빅데이터 시대의 데이터 분석 기반
빅데이터 기술이 기존의 데이터 웨어하우스와 다른 점은 다수의 분산 시스템을 조합하여 확장성이 뛰어난 데이터 처리 구조를 만든다는 점이다.
[재입문] 빅데이터의 기술 - 분산 시스템을 활용해서 데이터를 가공해 나가는 구조
‘빅데이터 기술’이란 분산 시스템을 활용하면서 데이터를 순차적으로 가공해 나가는 일련의 구조다.
이것은 실제로는 여러 서브 시스템을 조합함으로써 실현 가능하다.
데이터 파이프라인 (데이터 수집에서 워크플로 관리까지)
일반적으로 차례대로 전달해나가는 데이터로 구성된 시스템을 ‘데이터 파이프라인(data pipeline)’이라고 한다.
빅데이터의 데이터 파이프라인은 어디에서 데이터를 수집하여 무엇을 실현하고 싶은지에 따라 변화한다.
처음에는 간단한 구성으로도 끝나지만, 하고 싶은 일이 증가함에 따라 시스템은 점차 복잡해지고 그것을 어떻게 조합시킬지가 문제가 된다.
데이터 수집 (벌크 형과 스트리밍 형의 데이터 전송)
데이터 파이프라인은 데이터를 모으는 부분부터 시작한다.
데이터베이스에 쓰인 거래처 데이터, 파일 서버에 축적된 로그 파일, 스마트 폰 등의 모바일 애플리케이션에서 모여진 이벤트 데이터 및 임베디드(embedded) 장비에서 보내진 센서 데이터 등 각각 서로 다른 기술로 데이터를 전송한다.
‘데이터 전송(data transfer)’의 방법은 크게 다음의 두 가지가 있다.
-
벌크(bulk) 형:
이미 어딘가에 존재하는 데이터를 정리해 추출하는 방법으로, 데이터베이스와 파일 서버 등에서 정기적으로 데이터를 수집하는 데 사용 -
스트리밍(streaming) 형:
차례차례로 생성되는 데이터를 끊임없이 계속해서 보내는 방법으로 모바일 애플리케이션과 임베디드 장비 등에서 널리 데이터를 수집하는 데 사용
스트림 처리와 배치 처리
기존의 경우, 데이터 웨어하으수에서 다루는 데이터는 주로 벌크 형 방법이 이용되었다.
하지만 빅데이터의 세계에서는 모바일 애플리케이션 등이 증가함에 따라 오히려 스트리밍 형 방법이 주류가 되고 있고, 스트리밍 형 방법으로 받은 데이터는 아무래도 실시간으로 처리하고 싶어진다.
이것을 ‘스트림 처리(stream processing)’라고 한다.
예를 들어, 과거 30분간 취합한 데이터를 집계하여 그래프를 만들려면, ‘시계열 데이터베이스(time-series database)’와 같이 실시간 처리를 지향한 데이터베이스가 자주 사용된다.
스트림 처리의 결과를 시계열 데이터베이스에 저장함으로써, 지금 무슨 일이 일어나고 있는지 즉시 알 수 있다.
한편 스트림 처리는 장기적인 데이터 분석에는 적합하지 않은 문제가 있다.
장기적인 데이터 분석을 위해서는 보다 대량의 데이터를 저장하고 처리하는 데 적합한 분산 시스템이 좋다.
거기에 필요한 것은 스트림 처리가 아닌, 어느 정도 정리된 데이터를 효율적으로 가공하기 위한 ‘배치 처리(batch processing)’ 구조다.
분산 스토리지 (객체 스토리지, NoSQL 데이터베이스)
‘분산 스토리지(distribute storage)’란 여러 컴퓨터와 디스크로부터 구성된 스토리지 시스템을 말한다.
데이터를 저장하는 방법에는 몇 가지 선택이 있다.
대표적인 것이 ‘객체 스토리지(object storage)’로 한 덩어리로 모인 데이터에 이름을 부여해서 파일로 저장한다.
클라우드 서비스인 Amazon S3 등이 유명하다.
NoSQL 데이터베이스를 분산 스토리지로 사용할 수도 있다.
분산 데이터 처리 (쿼리 엔진, ETL 프로세스)
분산 스토리지에 저장된 데이터를 처리하는 데는 ‘분산 데이터 처리(distribute data processing)’의 프레임워크가 필요하다.
MapReduce가 사용되어진 것이 바로 이 부분으로 데이터양과 처리의 내용에 따라 많은 컴퓨터 자원이 필요하게 된다.
분산 데이터 처리의 주 역할은 나중에 분석하기 쉽도록 데이터를 가공해서 그 결과를 외부 데이터베이스에 저장하는 것이다.
빅데이터를 SQL로 집계할 때는 두 가지 방법이 있다.
하나는 분산 스토리지 상의 데이터를 SQL로 집계하기 위해 ‘쿼리 엔진(query engine)’을 도입하는 것이다.
Hive는 그 한 가지 예인데, 현재는 Hive보다도 고속인 ‘대화형 쿼리 엔진(interactive query engine)’도 개발되었다.
다른 하나는 외부의 데이터 웨어하우스 제품을 이용하는 것이다.
이를 위해서는 분산 스토리지에서 추출한 데이터를 데이터 웨어하우스에 적합한 형식으로 변환해야 하는데, 이 일련의 절차를 ‘ETL(extract-transform-load) 프로세스’라고 한다.
즉, 데이터를 ‘추출(extract)’하고, 그것을 ‘가공(transform)’한 후, 데이터 웨어하우스에 ‘로드(load)’한다.
워크플로 관리
전체 데이터 파이프라인의 동작을 관리하기 위해서 ‘워크플로 관리(workflow management)’ 기술을 사용한다.
매일 정해진 시간에 배치 처리를 스케줄대로 실행하고, 오류가 발생한 경우에는 관리자에게 통지하는 목적으로 사용된다.
빅데이터의 처리에는 크건 작건 간에 시스템 장애가 발생하므로 오류 발생 시의 처리와 다시 처리하기 위한 기능을 만드는 것을 빼놓아서는 안 된다.
ETL 프로세스
ETL 프로세스는 데이터베이스의 바깥에서 데이터를 가공하는 경우와 데이터를 읽어 들인 후에 가공하는 경우가 있다.
엄밀하게는 전자를 ETL, 후자를 ELT라고 구별해서 부른다.
데이터 웨어하우스와 데이터 마트 - 데이터 파이프라인 기본형
우선 ‘데이터 파이프라인의 기본형’으로 기존 방식대로의 데이터 웨어하우스를 구축하는 프로세스부터 살펴보겠다.
데이터 웨어하우스는 웹 서버나 업무 시스템에서 이용되는 일반적은 RDB와는 달리 ‘대량의 데이터를 장기 보존하는’ 것에 최적화되어 있다.
전형적인 사용 방법으로는 업무 시스템에서 꺼낸 데이터를 하루가 끝날 때 정리하여 쓰고, 이것을 야간 시간대에 집계해서 보고서로 작성한다.
데이터 웨어하우스의 측면에서 봤을 때, 업무 시스템을 위한 RDB나 로그 등을 저장하는 파일 서버는 ‘데이터 소스(data source)’라고 부른다.
거기에 보존된 ‘로우 데이터(raw data, 원시 데이터)’를 추출하고 필요에 따라 가공한 후 데이터 웨어하우스에 저장하기까지의 흐름이 ‘ETL 프로세스(ETL Process)’다.
데이터 웨어하우스 구축에는 ‘ETL 도구’라는 전용 소프트웨어가 자주 이용된다.
데이터 웨어하우스는 아무때나 함부로 사용해 시스템에 과부화를 초래하는 것은 곤란하다.
따라서, 데이터 분석과 같은 목적에 사용하는 경우에는 데이터 웨어하우스에서 필요한 데이터만을 추출하여 ‘데이터 마트(data mart)’를 구축한다.
데이터 마트는 BI 도구와 조합시키는 형태로 데이터를 시각화하는 데에도 사용된다.
데이터 웨어하우스와 데이터 마트 모두 SQL로 데이터를 집계한다.
그렇기에 데이터 웨어하우스를 중심으로 하는 파이프라인에서는 테이블 설계와 ETL 프로세스가 중요하다.
데이터 레이크 - 데이터를 그대로 축적
다른 업체에서 받은 텍스트 파일과 바이너리 데이터(binary data) 등은 있는 그대로 데이터 웨어하우스에 넣을 수 없는 것도 있다.
우선 데이터가 있고, 나중에 테이블을 설계하는 것이 빅데이터다.
빅데이터의 세계에서는 데이터의 축적 장소를 ‘데이터 레이크(data lake)’라고 한다.
구체적으로는 임의의 데이터를 저장할 수 있는 분산 스토리지가 데이터 레이크로 이용된다.
데이터 형식은 자유지만, 대부분의 경우는 CSV나 JSON 등의 범용적인 텍스트 형식이 사용된다.
데이터 레이크와 데이터 마트 (필요한 데이터는 데이터 마트에 정리)
데이터 레이크는 단순한 스토리지이며, 그것만으로는 데이터를 가공할 수 없다.
그래서 사용되는 것이 MapReduce 등의 분산 데이터 처리 기술이다.
데이터 분석에 필요한 데이터를 가공, 집계하고, 이것을 데이터 마트로 추출한 후에는 데이터 웨어하우스의 경우처럼 데이터 분석을 진행할 수 있다.
데이터 분석 기반을 단계적으로 발전시키기 - 팀과 역할 분담, 스몰 스타트와 확장
시스템 구축 및 운용, 자동화 등을 담당하는 ‘데이터 엔지니어(data engineer)’와 데이터에서 가치 있는 정보를 추출하는 ‘데이터 분석가(data analyst)’는 요구되는 지식뿐만 아니라 사용 도구도 다르다.
애드 혹 분석 및 대시보드 도구
데이터 파이프라인의 자동화 등을 생각하지 않고 수작업으로 데이터를 집계하는 것을 ‘일회성 데이터 분석’이라는 의미로 ‘애드 혹 분석(ad hoc analysis)’이라고 한다.
SQL 쿼리를 직접 작성해서 실행하거나 스프레드시트(표 계산 소프트웨어)에서 그래프를 만드는 것까지 포함해 모든 수작업이 애드 혹 분석에 포함된다.
애드 혹 분석에서는 데이터 마트를 만들지 않은 채 데이터 레이크와 데이터 웨어하우스에 직접 연결하는 경우가 많다.
수작업으로 데이터 분석뿐만 아니라 정기적으로 그래프와 보고서를 만들고 싶을 때 많이 도입하는 것이 ‘대시보드 도구(dashboard tool)’다.
일부 대시보드 도구는 데이터 마트가 없어도 동작하도록 설계되어 있어 설정한 스케줄에 따라 데이터 레이크와 데이터 웨어하우스에 접속해 쿼리를 실행하고 그 결과로부터 그래프를 생성한다.
데이터 마트와 워크플로 관리
데이터 마트 구축은 배치 처리로 자동화되는 경우가 많기 때문에 그 실행 관리를 위해 워크플로 관리 도구를 사용한다.
데이터를 수집하는 목적 - ‘검색’, ‘가공’, ‘시각화’의 세 가지 예
데이터를 모은 후에 무엇을 실시할지는 달성하고자 하는 목적에 따라 달라진다.
데이터 검색
우선 ‘데이터 검색’으로 대량의 데이터 중에서 조건에 맞는 것을 찾고 싶은 경우가 있다.
예를 들어, 어떤 시스템에 장애가 발생했을 때 그 원인을 특정하거나 고객으로부터 문의가 있으면 로그를 확인하는 것과 마찬가지다.
언제 무엇이 필요할지조차도 모르기 때문에, 시스템 로그 및 고객의 행동 이력 등 발생하는 모든 데이터를 취득해 놓도록 한다.
데이터 검색에 너무 많은 시간이 걸리는 것은 의미가 없고, 필요할 때 신속하게 검색할 수 있도록 해야 한다.
따라서, 시스템에는 실시간 데이터 처리나 검색 엔진을 사용하여 키워드를 찾는 기능이 필요하다.
데이터 가공
‘데이터의 가공’에 있어서는 업무 시스템의 일부로서 데이터 처리 결과를 이용하고 싶은 경우가 있다.
웹사이트에서 추천 상품을 제안하거나, 센서 데이터의 비정상적인 상태를 감지하여 통보하는 경우다.
이 경우는 목적이 명확하기 때문에 필요한 데이터를 계획적으로 모아 데이터 파이프라인을 설계한다.
데이터의 가공에는 자동화가 필수적이다.
따라서, 워크플로 관리를 도입하여 꼼꼼하게 테스트를 반복적으로 실행해서 시스템을 구축한다.
데이터 시각화
‘데이터 시각화’로 데이터를 시각적으로 봄으로써 알고 싶은 정보를 얻는 경우가 있다.
통계 분석 소프트웨어나 BI 도구 등으로 그래프를 만들고 거기서 앞으로의 상황을 예측해 의사 결정에 도움이 되도록 하는 경우다.
데이터 시각화는 시행착오의 연속이며, 확실한 해답은 없다.
시각화를 고속화하려면 데이터 마트도 필요하다.
또한, 집계 결과를 대시보드에 정리해서 계속 변화를 감시하고 싶을 때도 데이터 시각화는 필요하다.
기간계 시스템과 정보계 시스템
컴퓨터 시스템은 종종 '기간계 시스템(mission-critical system)'과 정보계 시스템(information system)'으로 구분한다.
전자는 비즈니스 근간에 관련된 중요한 시스템으로 이것이 정지되면 업무가 멈추기 때문에 완벽하게 테스트를 반복하고 신중하게 운용해야 한다.
한편, 후자는 사내 커뮤니케이션과 의사 결정 등을 위해 이용하는 시스템으로, 이것은 정지되어도 그 영향 범위가 제한되어 있기 때문에 기간계 시스템만큼 엄격한 운영 정책을 갖고 있지는 않다.
데이터를 취급하는 시스템에서는 그것이 기간계 시스템인지 아니면 정보계 시스템인지를 구분해서 양자가 혼합되지 않도록 한다.
'데이터'란 기간계 시스템과 정보계 시스템을 연결하는 것이다.
기간계 시스템은 그 실행 과정을 로그 파일이나 데이터베이스 등에 기록한다.
정보계 시스템은 데이터를 복사하는 데서부터 시작한다.
기간계 시스템 일부로 빅데이터를 통합하는 것이 아니라면, 데이터 분석 시스템은 원칙적으로 '정보계 시스템'으로 취급한다.
따라서, 모든 데이터는 처음에 복사하는 것부터 시작한다.
그 후에 분석에 필요한 데이터만을 가공하여 사용한다.
확증적 데이터 분석과 탐색적 데이터 분석
일반적으로 데이터 분석이란 가설을 세우고 그것을 검증하는 ‘확증적 데이터 분석(confirmatory data analysis)’과 데이터를 보면서 그 의미를 읽어내려고 하는 ‘탐색적 데이터 분석(exploratory data analysis)’으로 나눌 수 있다.
전자가 주로 통계학적 모델링에 의한 데이터 분석이라면, 후자는 데이터를 시각화하여 사람의 힘으로 그 의미를 읽는다.