데이터분석이론
-
Adsp 쪽집게 정리데이터분석이론 2020. 8. 28. 23:04
1과목 1. 링크드인 : 비즈니스 네트워킹 서비스 2. 사용자 정의 데이터 -> 객체지향 DBMS 3. Apache Spark : 스칼라로 작성된 실시간 분산형 컴퓨팅 플랫폼, 하둡보다 빠름 4. 데이터 매시업 : 기존에 풀기 어려웠던 문제 해결 도움 5. 메타데이터 : 데이터에 관한 구조화된 데이터, 다른 데이터를 설명 인덱스 : DB내 데이터를 빠르게 정렬, 탐색하게 해주는 구조 6. 데이터 범주화 : 데이터를 값의 범주의 값으로 변환 7. 데이터 마스킹이 사생활 침해방지 + 통계자료 유용성 최대 확보 8. 데이터화 현상 -> IoT (모든것의 데이터화) 9. 데이터 사이언티스트는 정확성에 초점을 두지 X, 가치창출 중요 + 총체적 접근법 활용 10. 데이터 웨어하우스 : 기업의 의사결정을 위한 주제..
-
데이터 분석 과제 도출하는 방법론(하향식, 상향식 접근법)데이터분석이론 2020. 8. 7. 01:04
분석 과제 발굴 방법론 데이터 분석을 하기 이전에, 분석 과제를 발굴하는 방법론에 대해서 정리해 보려고 한다. 2가지 방법이 있는데, 하향식 접근법과 상향식 접근법이 있다. 문제를 던져주면 답을 구하는 하향식 접근법이 전통적으로 수행하던 과제 접근 방법론이었다고 한다. 하지만 현대에 빅데이터의 규모와 급변하는 기업 환경에서 문제를 사전에 명확히 정의하는 것은 어려움이 있다. 두 가지로 나눴지만 디자인적 사고를 가지고 두 가지를 상호 보완하며 혼용하는 것이 분석 가치를 높이는 방법이라고 한다. ※ 디자인적 사고 : (상향식의 발산 단계 + 하향식의 수렴 단계)를 반복적으로 수행하는 상호 보완적 관계를 통해 분석의 가치를 높일 수 있는 최적의 의사결정 방식. 문제 탐색 - 문제정의 - ..
-
■ 분석방법론 - CRISP-DM데이터분석이론 2020. 2. 7. 22:44
CRISP-DM 분석방법론 배경 CRISP-DM 분석방법론은 1996년 ESPRIT의 프로젝트에서 시작되었으며, 주요 5개업체 (Daimler-Chrysler,SPSS,NCR,Teradata,OHRA)가 주도하였다. 2002년 2004년 2007년 2014년 설문조사에서 CRISP-DM 분석 방법론은 데이터 마이너들이 사용하는 최고의 방법론 이었다. 또한 표준 방법론이었던 SEMMA보다 3~4배 많이 사용하였다. 단계 CRISP-DM 분석방법론은 그림에 보이는 것처럼 크게 4가지 단계를 구조화하고 있다. 가장위의 레벨인 단계(Phases)는 프로세스 그룹을 통하여 완성된 개별 산출물이 생성된다. 단계는 여러개의 일반화 테스크(Generic Tasks)를 가지며 기본적으로 테스크는 단계를 구성하는 단위이며..
-
■ 분석방법론 - KDD데이터분석이론 2020. 2. 7. 22:36
KDD 분석 방법론 배경 Knowledge Discovery in Data base의 약자. Usama M. Fayyad(미국의 데이터사이언티스트,1965) 에 의해 고안된 분석방법론 중 하나로 데이터로부터 통계적 패턴과 규칙, 지식 습득 등을 하기 위해 활용할 수 있도록 정리된 데이터 마이닝이라고도 한다. 응용분야 데이터 마이닝, 기계학습(Machine Learning) ,패턴분석, 시각화 등. 분석 과정 1) 데이터 셋 선택(Selection) 비즈니스 도메인에 대한 이해와 프로젝트 목표 설정이 필수이다. 데이터베이스나 원시 데이터에서 분석에 필요한 데이터를 선택하는 단계이다. 데이터 마이닝에 필요한 목표데이터를 구성한다. 2) 전처리(Preprocessing) 추출한 데이터 셋에 있는 잡음과 이상치..
-
데이터(Data Definition) 와 DIKW데이터분석이론 2020. 2. 4. 14:57
데이터(Data)란? 정의 데이터는 라틴어 'Datum' 의 복수형인 'Data'에서 유래 했다. Datum : 자료 1. 컴퓨터가 처리할 수 있는 정성적, 정량적 데이터 포함 자료 2. 관찰이나 조사를 통하여 얻은 사실 3. 이론을 세우는 데 기초가 되는 사실. 또는 바탕이 되는 자료 4. 하나의 객체로서 의미뿐 아니라 다른 객체와의 관계 속에서 가치를 갖는 것 여기서 핵심은 데이터는 자료라는 것이다. 이 자료들을 가공하여 얻은 것이 정보가 된다. DIKW D(Data) : 데이터, 개별 데이터로는 의미가 있을 수도 없을 수도 있는 객관적인 사실 I(Information) : 정보, 데이터의 가공, 처리와 데이터간 연관속에서 의미가 도출된 것 K(Knowledge) : 지식, 정보를 구조화하여 의미있는..
-
빅데이터를 분석하는 방법과 순서(분석방법론)데이터분석이론 2020. 1. 16. 18:14
오늘은 빅데이터를 어떤 순서로 분석을 해나가면 되는지 공부해보았는데요, 빅데이터를 분석하는 단계는 크게 5단계가 있습니다. 단계별로 요약하였으니 구체적인 내용은 다음 블로그를 통하여 올리겠습니다. 먼저, 분석 기획을 해야 합니다. 분석 기획 단계는 비지니스 도메인(요소)과 문제점을 인식하고, 분석 계획과 프로젝트 수행계획을 세우는 단계입니다. 그 다음은 데이터 준비단계입니다. 데이터 준비 단계는 비지니스 요구사항과 필요한 데이터를 정의해 나가는 단계이라고 할 수 있습니다. 그 후 중요하고 시간도 많이 소비되는 데이터 분석단계입니다. 데이터 분석단계에서 정의한 소스 데이터를 분석용 데이터 집합으로 나누고, 다양한 데이터 마이닝 기법과 알고리즘을 이용하여 데이터를 분석하는 단계입니다. 이 과정에서는 데이터가..