ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • ■ 분석방법론 - KDD
    데이터분석이론 2020. 2. 7. 22:36
    반응형

    KDD 분석 방법론

    배경

    Knowledge Discovery in Data base의 약자.

    Usama M. Fayyad(미국의 데이터사이언티스트,1965) 에 의해 고안된 분석방법론 중 하나로 데이터로부터 통계적 패턴과 규칙, 지식 습득 등을 하기 위해 활용할 수 있도록 정리된 데이터 마이닝이라고도 한다.

     

    응용분야

    데이터 마이닝, 기계학습(Machine Learning) ,패턴분석, 시각화 등.

     

    분석 과정

    1) 데이터 셋 선택(Selection)

    비즈니스 도메인에 대한 이해와 프로젝트 목표 설정이 필수이다.

    데이터베이스나 원시 데이터에서 분석에 필요한 데이터를 선택하는 단계이다.

    데이터 마이닝에 필요한 목표데이터를 구성한다.

     

    2) 전처리(Preprocessing)

    추출한 데이터 셋에 있는 잡음과 이상치, 결측치를 식별하고 제거하거나 데이터를 재처리하고 필요한 데이터를 추가하는 단계이다.

     

    3) 데이터 변환(Transformation)

    전처리된 데이터(정제된 데이터)에 분석 목적에 맞는 변수를 생성하고 선택하며 데이터 차원을 축소하여 효율적 데이터 마이닝을 위한 데이터 변경을 하는 단계이다.

    학습용데이터와 테스트 데이터, 검증용데이터 등으로 데이터를 나누는 단계이다.

     

    4) 데이터 마이닝(Data Mining)

    학습용 데이터를 이용해 알맞은 데이터 마이닝 기법과 알고리즘을 활용하여 데이터 마이닝 잡업을 하는 단계이다.

    다시 데이터를 전처리나 변환 단계를 거치면서(Feedback) 최적의 결과를 산출해낸다.

     

    5) 데이터 마이닝 결과 평가(Interpretation/Evaluation)

    데이터 마이닝 결과에 대한 해석과 평가를 하며 원 분석 목적과의 일치를 확인한다.

    데이터 마이닝 결과를 통해 얻은 지식을 업무에 활용하기 위한 방안 마련의 단계이다.

     

    출처 KDD 분석 방법론 절차( https://www.researchgate.net/figure/The-Steps-of-a-KDD-process_fig7_220073492)

     

     

    Adsp 준전문가(저자 윤종식)
    https://wn.com/usama_fayyad/news

     

    반응형
Designed by Tistory.