본문 바로가기
데이터 분석

데이터 마이닝

by nujnow 2021. 12. 14.
728x90

데이터마이닝은 대용량 데이터에서 의미있는 패턴을 파악하거나 예측하여 의사 결정에 활용하는 방법입니다.

 

1. 종류

1) 정보를 찾는 방법론 별 종류

  • 인공지능(Artificial Intelligence)
  • 연관분석(Association Rule)
  • 회기분석(Regression)
  • 로짓분석(Logit Analysis)
  • 최근접이웃(Nearest Neighborhood)
  • 의사결정나무(Decision Tree)
  • K-평균군집화(K-means Clustering)

2) 분석 대상, 목적, 표현방법 별 종류

  • 시각화 분석(Visualization Analysis)
  • 분류(Classification)
  • 군집화(Clustering)
  • 포어케스팅(Forecasting)

 

2. 데이터 마이닝 분석 방법

Supervised Data Prediction (지도학습)

  • 의사결정나무(Decision Tree)
  • 인공신경망(ANN, Artificial Neural Network)
  • 일반화 선형 모델(GLM, Generalized Linear Model)
  • 회기분석(Regression Analysis)
  • 로지스틱 회기분석(Logistic Regression Analysis)
  • 사례기반 추론(Case Based Reasoning)
  • 최근접 이웃법(KNN, K-Nearest Neighbor)

Unsupervised Data Prediction (비지도학습)

  • OLAP(On-Line Analytical Processing)
  • 연관 규칙 발견(Association Rule Discovery, Market Basket)
  • 군집분석(K-Means Clustering)
  • SOM(Self Organizing Map)

 

3. 목적에 따른 작업 유형과 기법

1) 예측(Predictive Modeling) - 분류 규칙(Classification)

가장 많이 사용되는 작업으로 과거의 데이터로부터 고객의 특성을 찾아내 분류 모형을 만들어 이를 토대로 새로운 레코드의 결과값을 예측하는 것, 타겟 마케팅(Target Marketing) 및 고객 신용평가 모형에 활용

예) 회귀분석, 판별분석, 신경망, 의사결정나무

 

2) 설명(Descriptive Modeling) - 연관 규칙(Association)

데이터 안에 존재하는 항목간의 종속관계를 찾아내는 작업으로, 제품이나 서비스의 교차판매(Cross Selling), 매장진열(Display), 첨부 우편(Attached mailings), 사기 적발(Fraud Detection) 등의 다양한 분야에 활용

예) 동시발생 매트릭스

 

3) 설명(Descriptive Modeling) - 연속 규칙(Sequence)

관 규칙에 시간관련 정보가 포함된 형태로, 고객의 구매이력(History) 속성이 반드시 필요하며, 타겟 마케팅(Target Marketing) 이나 일대일 마케팅(One to One Marketing)에 활용

예) 동시 발생 매트릭스

 

4) 데이터 군집화(Clustering) : 고객 레코드들을 유사한 특성을 지난 몇 개의 소 그룹으로 분할하는 작업으로 작업의 특성이 분류규칙(Classification)과 유사하나 분석대상 데이터에 결과 값이 없으며, 판촉활동이나 이벤트 대상을 선정하는데 활용

예) 군집분석

 

4. 데이터 마이닝 추진 단계

1) 목적 설정

데이터 마이닝을 통해 취하고자 하는 목적을 설정합니다.

 

2) 데이터 준비

고객정보, 거래정보, 웹로그데이터, 상품 정보 등 다양한 데이터를 활용합니다.

 

3) 데이터 가공

모델링 목적에 따라 목적 변수를 정의합니다. 필요한 데이터를 데이터마이닝 소프트웨어에 적용할 수 있는 형태로 가공합니다.

 

4) 적용

설정된 목적에 맞는 데이터 마이닝 기법을 적용해 정보를 추출합니다.

 

5) 검증

데이터 마이닝으로 추출된 정보를 검증합니다. 테스트 데이터와 과거 데이터를 활용해 최적의 모델을 선정합니다.

댓글