데이터웨어 하우스와 데이터마이닝
데이터 웨어하우스(DW, Data Warehouse)
데이터 웨어하우스는 1980년대 IBM이 처음 소개한 개념으로, 업무 중심의 데이터 품질관리 체계에서 목적 중심의 데이터 저장창고라는 개념을 소개하였다. 데이터 웨어하우스라는 명칭은 정보(data)와 창고(warehouse)의 의미가 합성되어 만든 어휘이다. 웨어하우스(warehouse)의 사전적 의미는 단순히 창고이지만 데이터웨어하우스는 데이터만이 아닌 분석 방법까지도 포함하여 조직 내 의사 결정을 지원하는 정보 관리 시스템을 의미한다. 따라서 방대한 조직 내에서 분산 운영되는 각각의 데이터 베이스 관리 시스템들을 효율적으로 통합하여 조정ㆍ관리하기 때문에 효율적인 의사 결정 지원을 위한 본격적인 데이터 축적 및 관리, 더 나아가 활용 기반을 다지기 시작한 시작점이라고 할 수 있다.
특화된 데이터뿐만이 아니라 기업 활동 전반에 필요한 모든 정보를 일원화해 관리하며, 원시 데이터 계층, 데이터 웨어하우스 계층, 클라이언트 계층으로 구성되어 데이터의 추출, 저장, 조회 등의 기능을 수행한다. 기업 활동에 관한 모든 정보를 전체 회사 규모의 데이터베이스로 일원화하여 관리하므로 그 용량이 작게는 수백 GB에서 수 TB에 이른다. 따라서 대형 메인 프레임 등 기존의 플랫폼으로는 시간과 비용의 제약으로 곤란하였으나 병렬 서버의 등장과 자기 디스크 장치의 대용량화ㆍ저가격화로 인해 가능하게 되었다. 병렬 서버를 사용하면 하나의 검색 처리 요구를 분할하여 복수 프로세스로 병렬 처리함으로써 고속으로 검색할 수 있기 때문이다. 병렬 서버에 대응해서 관계형 데이터베이스 관리 시스템(RDBMS)을 사용한다. 최근에는 MPP아키텍처를 가진 컬럼 스토어 위주의 DW시스템을 많이 사용한다.
데이터 웨어하우스는 정의된 비지니스 목적에 부합하는 데이터 분석을 수행하는 상향식(bottom-up)뿐만 아니라, 수집된 다양한 데이터의 활용방안을 고민하는 하향식(top-down) 접근이 요구되기도 한다.
데이터 웨어하우스의 구성은 관리 하드웨어, 관리 소프트웨어, 추출ㆍ변환ㆍ정렬 도구, 데이터 베이스 마케팅 시스템, 메타 데이터(meta data), 최종 사용자 접근 및 활용 도구 등으로 구성되어 있다.
데이터 웨어하우스의 특징
기업의 운영시스템과 분리되며, 운영시스템으로부터 많은 데이터가 공급된다. 데이터 웨어하우스는 여러 개의 개별적인 운영시스템으로부터 데이터가 집중된다. 기본적인 자료 구조는 운영시스템과 완전히 다르므로 데이터들이 데이터 웨어하우스로 이동되면서 재구조화되어야 한다. 운영시스템과 데이터 웨어하우스는 근본적으로 다르며, 두 개의 매우 상이한 시스템을 요구한다.
데이터 웨어하우스는 신뢰할 수 있는 하나의 버전 (one version of truth)을 사용자에게 제공한다. 기존 운영시스템의 대부분은 항상 많은 부분이 중복됨으로써 하나의 사실에 대해 다수의 버전이 존재하게 된다. 그렇지만 데이터 웨어하우스에서 이러한 데이터는 전사적인 관점에서 통합된다.
시간성 혹은 역사성을 가진다. 즉 일, 월, 년 회계기간등과 같은 정의된 기간과 관련되어 저장된다. 운영시스템의 데이터는 사용자가 사용하는 매순간 정확한 값을 가진다. 즉 바로 지금의 데이터를 정확하게 가지고 있을 것이 요구된다. 반면 웨어하우스의 데이터는 특정 시점을 기준으로 정확하다.
주제 중심적이다. 운영시스템은 재고 관리, 영업관리 등과 같은 기업운영에 필요한 특화된 기능을 지원하는 데 반해, 데이터 웨어하우스는 고객, 제품 등과 같은 중요한 주제를 중심으로 그 주제와 관련된 데이터들로 조직된다.
컴퓨터 시스템 혹은 자료 구조에 대한 지식이 없는 사용자들이 쉽게 접근할 수 있어야 한다. 조직의 관리자들과 분석가들은 그들의 PC로부터 데이터 웨어하우스에 연결될 수 있어야 한다. 이런 연결은 요구에 즉각적이어야 하고, 또한 신속성을 보여야 한다.
데이터 웨어하우스는 읽기 전용 데이터베이스로서 갱신이 이루어지지 않는다. 웨어하우스 환경에서는 프로덕션 데이터 로드(Production Data Load)와 활용만이 존재하며, 운영시스템에서와 같은 의미의 데이터의 갱신은 발생하지 않는다.
데이터 웨어하우스는 일정한 시간 동안의 데이터를 대변하는 것으로 snap shot과 같다고 할 수 있다. 따라서 데이터 구조상에 시간이 아주 중요한 요소로 작용한다.
데이터레이크 (Data Lake)
최근에는 데이터의 축적되는 양이 기하급수 적으로 늘어나고 있기 때문에, 저장을 하기전에 데이터를 가공(전처리)하는데 시간이 오래걸리는 데이터 웨어하우스보다 데이터 레이크라는 방식의 데이터 축적 방법을 선택하기도 한다. 데이터레이크는 축적된 데이터를 가공하지 않고 저장한후, 데이터 분석이 필요한 경우 필요한 데이터만 데이터 레이크에서 불러와 가공을 하여 필요한 영역에 사용을 한다.
데이터 레이크와 데이터 웨어하우스 차이 분석
데이터 레이크와 데이터 웨어 하우스는 종종 혼동되지만, 이 둘은 동일하지 않으며 그 목적도 다르다. 둘 다 빅데이터를 위한 데이터 스토리지 리포지토리라는 것만이 유일한 유사점이다. 많은 기업들이 데이터 웨어하우스와 데이터 레이크를 모두 사용하여 특정 요구 사항과 목표를 충족한다.
데이터 웨어하우스는 보고를 위해 설계된 구조화된 데이터 모델을 제공한다. 이 것이 데이터 레이크와 데이터 웨어하우스의 가장 큰 차이점이다. 데이터 레이크는 현재 정의된 목적이 없는 비정형 원시 데이터를 저장한다. 데이터 웨어하우스에서 데이터는 저장하기 전에 처리되어야 한다. 데이터 웨어하우스에 어떤 데이터를 포함시킬지 결정하게 되는데, 이를 “쓰기 스키마(schema on write)”라고 하며, 데이터를 데이터 웨어하우스에 저장하기 전에 데이터를 정제하는 프로세스는 시간이 오래 걸리고 어려울 수 있으며 몇 개월 또는 몇 년씩 걸리는 경우도 있으므로, 즉시 데이터를 수집할 수 없는 경우도 있다. 데이터 레이크를 활용하면 즉시 데이터를 수집하여 향후 해당 데이터를 어디에 사용할지 파악할 수 있다.
데이터 구조 때문에, 정기적인 보고에 어떤 데이터가 필요한지 미리 알고 있는 비즈니스 애널리스트와 다른 비즈니스 사용자가 데이터 웨어하우스를 더 자주 사용한다. 데이터 레이크는 데이터를 이용해 연구를 수행하는 데이터 과학자 및 애널리스트가 보다 자주 사용하며, 데이터를 사용하려면 고급 필터 및 분석이 적용되어야 한다.
데이터 레이크와 데이터 웨어하우스는 일반적으로 다른 하드웨어를 이용하여 데이터를 저장하며, 데이터 웨어하우스는 비용이 많이 들 수 있는 반면, 데이터 레이크는 대규모임에도 불구하고 상용 하드웨어를 자주 사용하기 때문에 그보다 비용이 저렴하다.
데이터마이닝
데이터마이닝을 간단히 이야기하면 데이터 분석이라고 할 수 있다.
데이터 마이닝이란 사전적 의미로는 다음과 같다.
대규모로 저장된 데이터 안에서 체계적이고 자동적으로 통계적 규칙이나 패턴을 찾아 내는 것이다.
다른 말로는 KDD(데이터베이스 속의 지식 발견: Knowledge-discovery in databases)라고도 일컫는다.
국내의 경우 1990년대 후반, 고객관계관리(CRM, Customer Relationship Management) 분야의 고객 반응, 이탈, 교차판매 등에 도입되기 시작했으며, 특히 마케팅 분야에서는 결과 해석이 용이한 의사결정나무가 가장 활발히 활용되고 있다.
복잡성이 높은 데이터 분석에 인공지능이나 패턴인식 등에서 연구되어 온 기계학습(Machine Learning) 이론이 적용되었는데, 기계학습과 같은 알고리즘 접근방법이 데이터 분석에 도입된 이유는 관측치마다 변수가 급격히 증가하고 통제되지 않은 인간행동에 의해 생산된 데이터라는 복잡성 때문에 기존의 모수적 모형 접근방법으로는 좋은 결과를 기대하기 어려웠기 때문이다.
모수적 모형 접근방법 (Parametric modeling approach)
특징: 단순 선형 회귀분석 Y=a+bx와 같이 모수 a와 b를 과거 데이터로 Fitting하는 방법이다. 즉, 모형 식을 세우고 식 내의 모수를 데이터로 활용하여 최소승자법이나 최대우도추정법 등으로 구하는 방식이다. 결과에 대한 해석이 대체로 용이하다.
단점: 가정이나 설정한 식에 부합하지 않는 데이터의 경우, 정확도 등의 성능이 낮을 수 있다.
알고리즘 접근방법 (Algorithmic approach)
특징: 알고리즘에 의해 정해진 방식에 따라 계산된 결과로 분석하는 방식. 알고리즘에 의해 데이터로 학습한다는 표현을 한다. 데이터의 복잡성이 높아도 적용이 가능하다.
단점: 알고리즘의 속성이나 방법에 대한 이론적 근거를 모르고 남용하는 경우, 과도한 적합(Over-fitting)등의 우를 범할 수 있으며, 기계만 인지할 수 있는 결과로 인해 결과 해석이 어려운 방법이 많다.
데이터마이닝의 방법
데이터마이닝은 다음과 같은 절차를 통해 진행한다.
- 비지니스 이해
- 데이터 알고리즘 이해
- 데이터 준비
- 데이터 분석
- 평가
- 배포
데이터마이닝의 이점
자동화된 의사 결정
데이터마이닝을 사용하면 조직에서 지속적으로 데이터를 분석하고, 인간에 의한 판단의 지연이 없이 일상적이고 중요한 결정 모두를 자동화할 수 있다. 은행은 사기 거래를 즉각적으로 감지하고 확인을 요청하며, 신원 도용으로부터 고객을 보호하기 위해 개인 정보를 보호 할 수 있다. 기업의 운영을 위한 데이터 알고리즘 내에 배치된 이 모델은 의사 결정을 간소화하고 조직의 일상적인 프로세스를 향상시키기 위해 데이터를 독립적으로 수집, 분석 및 실행할 수 있다.
정확한 예견 및 예측
계획은 모든 조직 내의 중요한 프로세스이다. 빅데이터 분석을 통해 계획 수립을 촉진하고 관리자에게 과거 추세 및 현재 상태를 기반으로 신뢰할 수 있는 예측을 제공한다. 수요 예측 모델을 구현하여 각 매장에서 각 상품 카테고리에 대한 수요를 예견하고 시장의 요구를 효율적으로 충족시킬 수 있는 적절한 재고를 배치할 수 있다.
비용 절감
데이터마이닝을 통해 보다 효율적으로 자원을 사용하고 할당 할 수 있다. 조직은 정확한 예측을 통해 계획을 수립하고 자동화된 의사 결정을 내릴 수 있으므로 비용을 최대로 절감할 수 있다. 델타 항공은 승객의 수하물에 RFID 칩을 넣고 데이터 마이닝 모델을 실행하여 수하물 처리절차에서의 결점을 파악하여 잘못 처리된 수하물 가방의 수를 줄였습니다. 이 프로세스 개선은 승객 만족도를 높이고 잃어버린 수하물을 찾아 재발송하는 비용을 절감하였다.
고객 정보
기업은 고객 데이터에 대한 데이터 마이닝 모델을 실행하여 고객 간의 주요 특징과 차이점을 파악할 수 있다. 데이터마이닝은 개성을 파악하고 각 접점을 개인화하여 전반적인 고객 경험을 향상시키는 데 사용할 수 있다. 2017년, 디즈니는 “매직 밴드”(Magic Bands)를 만들고 구현하기 위해 10억 달러 이상을 투자했다. 이 밴드는, 리조트에서의 전반적인 경험을 향상시키는 동시에 디즈니가 고객 경험을 향상시키기 위해 분석할 그들의 활동에 대한 데이터를 수집하면서, 소비자와의 공생 관계를 유지한다.
최신 댓글