데이터 분석을 효과적으로 활용하기 위해서 체계화된 절차와 방법이 정리된 데이터 분석 방법론의 수립이 필수적입니다.
방법론은 절차(Procedures), 방법(Methods), 도구&기법(Tools & Techniques), 탬플릿&산출물(Templates & Outputs)로 구성되어 있습니다.
목차
1. KDD 분석 방법론
1) 개요
KDD(Knowledge Discovery in Database)는 1996 Fayyad가 프로파일링 기술을 기반으로 데이터로부터 통계쩍인 패턴이나 지식을 찾기 위해 활용할 수 있도록 체계적으로 정리한 데이터 마이닝 프로세스입니다.
데이터마이닝, 기계학습, 인공지능, 패턴인식, 데이터 시각화 등에서 응용 될 수 있는 구조를 갖고 있습니다.
2) KDD 분석 프로세스
(1) 데이터셋 선택(Selection)
데이터베이스 또는 원시 데이터에서 분석에 필요한 데이터를 선택하는 단계입니다.
데이터마이닝에 필요한 목표 데이터(Target data)를 구성하여 분석에 활용합니다.
(2) 데이터 전처리(Preprocessing)
추출된 분석 대상 데이터 셋에 포함되어 있는 잡음(Noise)과 이상치(Outlier), 결측치(Missing value)를 식별하고 필요시 제거하거나 의미있는 데이터로 재처리하여 데이터 셋을 정제하는 단계입니다.
데이터 전처리 단계에서 추가로 요구되는 데이터셋이 필요한 경우 데이터 선택 프로세스를 추가 진행합니다.
(3) 데이터 변환(Transformation)
데이터 전처리 과정을 통해 정제된 데이터에 분석 목적에 맞게 변수를 생성, 선택하고 데이터의 차원을 축소하여 효율적으로 데이터 마이닝을 할 수 있도록 데이터에 변경하는 단계입니다.
데이터마이닝 프로세스를 진행하기 위해 학습용 데이터(Training data)와 검증용 데이터(Test data)로 데이터를 분리하는 단계입니다.
(4) 데이터 마이닝(Data mining)
학습용 데이터를 이용하여 분석목적에 맞는 데이터마이닝 기법을 선택하고, 적절한 알고리즘을 적용하여 데이터마이닝 작업을 실행하는 단계입니다.
필요에 따라 데이터 전처리와 데이터 변환 프로세스를 추가로 실행하여 최적의 결과를 도출합니다.
(5) 데이터 마이닝 평가(Interpretation / Evaluation)
데이터 마이닝 결과에 대한 해석과 평가, 분석 목적과의 일치를 확인합니다.
데이터 마이닝을 통해 발견한 지식을 업무에 활용하기 위한 방안 마련의 단계입니다.
필요에 따라 데이터 선택 프로세스에서 데이터 마이닝 프로세스를 반복 수행합니다.
2. CRISP-DM 분석 방법론
1) 개요
CRISP-DM(Cross Industry Standard Process for Data Mining)은 1996년 유럽연합의 ESPRIT에서 있었던 프로젝트에서 시작되었으며, 주요한 5의 업체(Maimler - Chryster, SPSS, NCR, Teradata, OHRA)가 주도했습니다. CRISP-DM은 계층적 프로세스 모델로써 4개 레벨로 구성됩니다.
2) CRISP-DM의 4레벨 구조
최상위 레벨은 여러 단계(Phases)로 구성되고 각 단계는 일반화 태스크(Generic TAsks)를 포함합니다. 일반화 태스크는 데이터마이닝의 단일 프로세스를 완전하게 수행하는 단위이며, 이는 다시 구체적인 수행 레벨인 세분화 태스크(Specialized Tasks)로 구성됩니다.
마지막 레벨인 프로세스 실행(Process Instances)은 데이터마이닝을 위한 구체적인 실행을 포함합니다.
3) CRISP-DM의 프로세스
CRISP-DM의 프로세스는 6단계로 구성되어 있으며, 각 단계는 단방향으로 구성되어 있지 않고 단계 간 피드백을 통하여 단계별 완성도를 높이게 되어 있습니다.
(1) 업무 이해(Business Understanding)
비즈니스 관점에서 프로젝트의 목적과 요구사항을 이해하기 위한 단계입니다. 초기 프로젝트 계획을 수립하는 단계로 업무 목적을 파악하고, 데이터 마이닝의 목적과 프로젝트 계획을 수립합니다.
(2) 데이터 이해(Data Understanding)
분석을 위한 데이터를 수집하고 데이터 속성을 이해하기 위한 단계입니다. 데이터 품질에 대한 문제점을 식별하고 숨겨져 있는 인사이트를 발견하는 단계로 초기 데이터를 수집하고 데이터 기술 분석, 데이터 탐색이 이 단계에 포함됩니다.
(3) 모델링(Modeling)
다양한 모델링 기법과 알고리즘을 선택하고 모델링 과정에서 사용되는 파라미터를 최적화하는 단계입니다. 모델링 과정에서 데이터셋이 추가로 필요한 경우 데이터 준비 단계를 반복 수행할 수 있습니다. 모델링 결과를 테스트용 데이터셋으로 평가하여 모델의 과적합(Over-fitting)문제를 확인, 모델링 기법 선택, 모델 테스트 계획 설계, 모델가 이 단계에 포함됩니다.
(4) 평가(Evaluation)
모델링 결과가 프로젝트 목적에 부합하는지 평가하는 단계로 데이터마이닝 결과를 최종적으로 수용할 것인지 판단하는 단계입니다. 분석 결과 평가, 모델링 과정 평가, 모델 적용성 평가가 이 단계에 포함됩니다.
(5) 전개(Deployment)
모델링과 평가 단계를 통하여 완성된 모델을 실무에 적용하기 위한 계획을 수립하는 단계입니다. 모니터링과 모델의 유지보수 계획 마련. 입력되는 데이터의 품질 편차, 전개 계획 수립, 모니터링/유지보수 계획 수립, 프로젝트 종료 보고, 프로젝트 리뷰가 이 단계에 포함됩니다.
3. KDD와 CRISP-DM
KDD: 데이터셋 선택(Data Selection) - 데이터 전처리(Preprocessing) - 데이터 변환(Transformation) - 데이터 마이닝(Data Mining) - 결과 평가(Interpretation / Evaluation) - 활용
CRISP-DM: 업무 이해(Business Understanding) - 데이터 이해(Data Understanding) - 데이터 준비(Data Preparation) - 모델링(Modeling) - 평가(Evaluation) - 전개(Deployment)
4. 빅데이터 분석 방법론
1) 빅데이터 분석의 계층적 프로세스
(1) 단계(Phase)
프로세스 그룹(Process Group)을 통해 완성된 단계별 산출물이 생성됩니다. 각 단계는 기준선(Baseline)으로 설정되어 관리되어야 하며, 버전관리(Configuration Management) 등을 통하여 통제가 이루어져야 합니다.
(2) 태스크(Task)
각 단계는 여러개의 태스크(Task)로 구성됩니다. 각 태스크는 단계를 구성하는 단위 활동이며, 물리적 또는 논리적 단위로 품질 검토의 항목이 될 수 있습니다.
(3) 스탭(Step)
처리 및 도구(Process & Tool), 출력자료(Output)로 구성된 단위 프로세스(Unit Process)입니다.
2) 빅데이터 분석 방법론 5단계
분석기획(Planning) - 데이터 준비(Preparing) - 데이터 분석(Analyzing) - 시스템 구현(Developing) - 평가 및 전개(DEploying)
(1) 분석 기획(Planning)
문제점을 인식하고 분석 계획 및 프로젝트 수행계획을 수립하는 단계입니다.
(2) 데이터 준비(Preparing)
요구사항과 데이터 분석에 필요한 원천 데이터를 정의하고 준비하는 단계입니다.
(3) 데이터 분석(Analyzing)
원천 데이터를 분석용 데이터셋으로 편성하고 다양한 분석 기법과 알고리즘을 이용하여 데이터를 분석하는 단계입니다.
분석 단계를 수행하는 과정에서 추가적인 데이터 확보가 필요한 경우 데이터 준비 단계를 반복 진행합니다.
(4) 시스템 구현(Developing)
분석 기획에 맞는 모델을 도출하고 이를 운영중인 가동 시스템에 적용하거나 시스템 개발을 위한 프로토타입 시스템을 구현합니다.
(5) 평가 및 전개(Deploying)
데이터 분석 및 시스템 구현 단계를 수행한 후 프로젝트의 성과를 평가하고 정리하거나 모델을 발전 계획을 수립하여 차기 분석 기획으로 전달하고 프로젝트를 종료하는 단계입니다.
댓글