ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • ■ 분석방법론 - CRISP-DM
    데이터분석이론 2020. 2. 7. 22:44
    728x90
    반응형

    CRISP-DM 분석방법론

    배경

    CRISP-DM 분석방법론은 1996년 ESPRIT의 프로젝트에서 시작되었으며, 주요 5개업체 (Daimler-Chrysler,SPSS,NCR,Teradata,OHRA)가 주도하였다.

    2002년 2004년 2007년 2014년 설문조사에서 CRISP-DM 분석 방법론은 데이터 마이너들이 사용하는 최고의 방법론 이었다. 또한 표준 방법론이었던 SEMMA보다 3~4배 많이 사용하였다. 

    단계 

    CRISP-DM 분석방법론은 그림에 보이는 것처럼 크게 4가지 단계를 구조화하고 있다.

    가장위의 레벨인 단계(Phases)는 프로세스 그룹을 통하여 완성된 개별 산출물이 생성된다. 단계는 여러개의 일반화 테스크(Generic Tasks)를 가지며 기본적으로 테스크는 단계를 구성하는 단위이며 물리적, 논리적 단위로 품질검토의 항목이 된다. 또한 일반화 테스크는 여러개의 세분화 테스크(Specialized Tasks)를 가지고 있으며 두 사이에는 매핑(대응)을 통해서 구성한다. 마지막 레벨인 프로세스 실행(Process Instances)은 데이터 마이닝을 위한 구체적 실행을 포함한다.

    ex) 데이터 정제(일반화 테스크)는 범주형, 연속형 데이터 정제(세분화 테스크)로 구성되어 있다고 한다.

     

    분석 과정

    CRISP-DM, Critical Thinking methodology, Legal Reasoning, Pragmatic Insight Report

    크게 6단계로 절차가 나누어 지는데 앞에 KDD 분석 방법론과 공통되는 부분도 있고 조금 더 세분화 하는 단계도 있다.

    테스크와 세부 프로세스는 너무 많기 때문에 단계별로 크게 나누어 보았다. 또한 단계별로 KDD 분석방법론과 비교하여 나타내겠다.

    1) 업무이해

    비즈니스 관점의 이해와 프로젝트의 목적, 요구사항을 이해하기 위한 단계이다. 도메인 지식을 분석을 위한 문제 정의로 변경하고 초기 계획을 수립하는 단계이다.

     

    2) 데이터 이해 (KDD - 데이터 셋 선택, 데이터 전처리)

    분석을 위한 데이터를 수집하고 속성을 이해하기 위한 단계이다. 데이터 품질의 문제점과 통찰을 하는 단계이다.

    데이터 수집을 하는 과정에서 비즈니스 관점과 프로젝트 목적을 확인하며 준비하고 추가적인 데이터가 원 목적에 변화를 줄 수 있는 단계이다. 따라서 그림에 보이는 것과 같이 업무이해 단계와 피드백을 한다.

     

    3) 데이터 준비 (KDD - 데이터 변환)

    분석을 위해 수집된 데이터에서 분석기법(데이터 마이닝을 위해)에 적합한 데이터를 편성하는 단계이고 가장 많은 시간이 소요된다.

     

    4) 모델링 (KDD - 데이터 마이닝)

    다양한 모델링 기법과 알고리즘을 선택하고 데이터 마이닝에 필요한 변수를 최적화해 나가는 단계이다. 데이터 셋이 추가적으로 필요할 경우 데이터 준비단계를 반복적(데이터 준비단계와 피드백)으로 수행하면서 모델 평가를 해나간다.

     

    5) 평가 (KDD - 데이터 마이닝 결과 평가)

    모델링 결과가 프로젝트 목적과 부합하는지 평가하는 단계이다. 부합성에 따라 모델 적용성을 평가한다.

     

    6) 전개

    평가를 마친 모델을 실 업무에 적용하기 위해서 계획하는 단계이다. 적용한 후의 유지보수 계획과 모니터링을 수행한다.또한 다음 데이터 분석을 위한 자료로 쓰일 수 있도록 프로젝트 종료보고서를 작성하고 프로젝트 마무리를 하는 단계이다. 

     

     

    ADSP 준전문가 (저자 윤종식)
    https://en.wikipedia.org/wiki/Data_mining

     

    반응형
Designed by Tistory.