ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • Adsp 쪽집게 정리
    데이터분석이론 2020. 8. 28. 23:04
    반응형

    1과목

    1. 링크드인 : 비즈니스 네트워킹 서비스
    2. 사용자 정의 데이터 -> 객체지향 DBMS
    3. Apache Spark : 스칼라로 작성된 실시간 분산형 컴퓨팅 플랫폼, 하둡보다 빠름
    4. 데이터 매시업 : 기존에 풀기 어려웠던 문제 해결 도움
    5. 메타데이터 : 데이터에 관한 구조화된 데이터, 다른 데이터를 설명
       인덱스 : DB내 데이터를 빠르게 정렬, 탐색하게 해주는 구조
    6. 데이터 범주화 : 데이터를 값의 범주의 값으로 변환
    7. 데이터 마스킹이 사생활 침해방지 + 통계자료 유용성 최대 확보
    8. 데이터화 현상 -> IoT (모든것의 데이터화)
    9. 데이터 사이언티스트는 정확성에 초점을 두지 X, 가치창출 중요 + 총체적 접근법 활용
    10. 데이터 웨어하우스 : 기업의 의사결정을 위한 주제 중심적으로 통합적 + 시간성 데이터 집합(수정 X)
    11. 통찰력을 주는 분석 기술 : 최적화, 모델링, 예측, 권고, 시뮬레이션
    12. 가트너가 말한 역량 : 비즈니스 분석, 데이터관리, 분석모델링, Soft Skill
    13. BI : 데이터 기반 의사결정을 지원하기 위한 리포트 중심 도구
        BA : 경영 의사 결정을 위한 통계적, 수학적 도구
    14. 데이터 마이닝 : 대용량 데이터로부터 의미 있는 관계, 규칙, 패턴을 찾는 과정
    15. 1byte는 256종류의 서로 다른 값을 표현할 수 있는 데이터의 크기
    16. 데이터 사이언스 : 데이터로부터 의미있는 정보를 추출하는 학문
    17. NoSQL : MongoDB, Cassandra, HBase
    18. 데이터웨어하우스 : 사용자 의사결정에 도움을 주기 위해 정보를 기반으로 제공하는 통합된 데이터 저장 공간. 변화하는 값이 발생할 수 없음. ETL은 주기적으로 DB로 부터 정보추출하고 규약에 따라서 변환후에 DW에 정보 적재함., 재무, 생산, 운영 등과 같이 특정 조직의 특정 업무 분야에 초점을 맞추어 구축.
    19. 복잡한 최적화 능력은 가치 창출을 할 수 없음. + 과거 상황을 많이 넣을 수록, 모델에 옳지 않음.
    20. 군집분석, 연관분석, OLAP -> 비지도학습
    21. 공급업체 or 제휴업체와 통합된 정보시스템 : SCM

     

     

     

    2과목

    1. 분석 기획 고려사항 중 장애요소 : 비용, 성능, 조직 역량으로 내재화를 위한 변화 관리
    2. 성공적 분석을 위한 고려사항 : 관련 데이터, 비즈니스 케이스 확보, 이해 저해 요소 관리,(원점에서 솔루션탐색X)
    3. 하향식 접근방법의 타당성 평가 : 데이터, 경제적(비용 대비 효익), 기술적 타당성(분석시 적용 가능한 기술요소), 다각적 검토 필요
    4. 마스터플랜 세부 이행계획 수립시 -> 프로젝트의 세부 일정계획도 데이터 분석체계를 고려하여 작성.
    5. 데이터 분석 모델 품질평가 -> SPICE, 분석 프로젝트 관리 -> KSA ISO 21500:2013 가이드
    6. 데이터 분석 프로젝트에서 분석 범위가 자주 변경되므로 일정 계획보다 더많은 시간이 걸릴 수 있음. 따라서 Time Boxing 기법과 같은 방법으로 일정관리 진행(데이터 수집에 대한 철저한 통제 관리 필요까지는 X)
    7. 다만 시간관리는 프로젝트의 활동 일정을 수립하고 진척상황을 관찰하는데 요구되는 프로세스임.
    8. 분석 데이터 준비도 : 데이터 충분, 신뢰, 적시, 비구조적 데이터관리, 외부 데이터 활용 체계, MDM
    9. 데이터 표준화 : 표준용어설정, 명명규칙, 메타데이터, 데이터사전 구축
    10. 빅데이터 거버넌스 : 다양한 데이터를 활용하기 위해 회사 내 모든 데이터활용 X(어떤 목적으로 어떤 데이터를 어떻게 분석에 활용할 것인지가 더중요), ERD는 DB와 일치하기 위해 철저한 변경관리 필요, 수명주기관리 중요,요소별로 구분하여 작성
    11. 분석 과제중, 발생된 시사점과 분석 결과물이 Pool로 관리. 확정된 분석과제는 Pool로 관리하지 않음.
    12. 과제발굴, 과제수행 두단계가 있음.
    13. 고급 분석기법활용은 기존에도 존재하였음.
    14. Seelf Service Analytics : BI, Ad hoc Report, OLAP, Visual Discovery, ML 포함.
                                       성공적인 적용을 위해 Reference Method의 작성 및 공유, 표준데이터활용, 거버넌스,도구사용에 대한 지속적 교육필요. R,Python 등의 데이터 분석 언어와 많은 통계적 지식을 필요.
                                       분산처리를 지원하고 있지 않음.
    15. Servitization : 서비스와 제품 결합, 서비스의 상품화, 기존 서비스와 신규 서비스의 결합 현상.
    16. 데이터 관리 체계 : 메타데이터, 데이터사전 관리, 생명주기관리
    17. 데이터 저장소관리: 워크플로우를 지원 + 사전영향평가
    18. 문제 탐색 -> 문제 정의 -> 해결방안 -> 타당성평가
    19. 알고리즘 설명서는 '의사코드'수준의 상세한 작성이 필요.
    20. 프레이밍 효과 : 표현방식 및 발표자에 따라 동일한 사실에도 판단을 달리하는 현상.
    21. 나선형모델 : 반복을 통하여 점증적으로 개발하는 방법. 처음 시도하는 프로젝트에 용의 but 복잡도가 상승하여 진행어려울 수 있음.
    22. 능력 성숙도 통합 모델 : SW와 시스템공학의 역량 성숙도를 측정하기 위한 모델, 1~5단계로 구성
    23. ISP : 기업의 중장기 로드맵을 정의하기위한 업무
    24. CRISP-DM은 폭포수 모델이 아님.
    25. 데이터 거버넌스 체계 구성요소 : 원칙, 조직, 프로세스, 데이터, 시스템
    26. 분석 유즈 케이스 : 풀어야할 문제에 대한 상세한 설명 및 해당 문제를 해결했을 때 발생하는 효과를 명시, 향후 데이터 분석 문제로의 전환 및 적합성 평가에 활용하도록 하는 것.
    27. 분석 과제 기획 고려사항 : 가용데이터, 분석유즈케이스, 데이터 확보우선, 장애요인들 사전 계획 수립
    28. 데이터 분석 방법론 : 절차, 방법, 도구와 기법, 템플릿과 산출물
    29. 위험 대응 방법 종류 : 회피, 전이, 완화 ,수용,(관리X)
    30. 적용 범위 및 방식 : 업무 내재화, 분석 데이터 , 기술
    31. Accuracy : 분석의 활용적인 측면, 모델과 실제 값의 차이를 평가하는 정확도
         Precision : 안정성 측면, 모델을 지속적으로 반복했을 때의 편차의 수준, 일관적으로 동일한 결과를 제시
         둘은 Trade-off가 많음.
    32. Information, Ad hoc Report, Alerts, Clean Data -> 빅데이터 분석에 대한 키워드
    33. 시급성 : 전략적 중요도, 목표가치 /// 난이도 : 분석 수준과 분석 적용 비용
    34. 빅데이터 기획 전문가 : BI조직에 소속하여 빅데이터 분석 전문 조직과 협력하여 분석 모델이나 예측 모델을 Self Service Analytics 도구를 활용하여 구현하는 전문가.

    3과목

    1. 최소제곱법 : 측정값을 기초로하여 적당한 제곱합을 만들고 그것을 최소로하는 값을 구하여 측정결과를 처리하는 방법
    2. 회귀계수 : t통계량의 p-value가 0.05보다 작음
       모형의 설명력 :  설명계수(R^2) (독립변수가 종속변수 변동의 몇%를 설명하는지)
       회기식의 유의(모형의 통계적 유의성) : F통계량의 p-value가 0.05보다 작으면
       적합성 : 잔차와 종속변수의 산점도
    3. 변수들간의 선형관계가 존재하여 회귀계수의 정확한 추정 어려움 : 다중공산성 (분산팽창요인, 상태지수)
    4. 단계적 변수 선택 - 전진 선택법, 후진 제거법, 단계 선택법(전진선택법에서 변수 추가하면서 중요도 약화되면 해당 변수 제거하는 등)
    5. 시계열자료 - 예측, 경향, 주기 , 계절성
    6. 시계열자료 정상성 - 평균이 일정, 분산 일정, 공분산도 시차에만 의존(특정 시점에 의존X)
    7. 이동 평균법 - 과거부터 현재까지 일정기간별 이동평균 계산, 추세로 미래 예측(불규칙변동크면-긴기간)
       지수 평활법 - 모든 시계열 자료를 사용하여 평균을 구함, 시간의 흐름에 따라 최근 시계열에 더 많은 가중치 부여(불규칙변동 크면-계수 작은값)
    8. 이동 평균모형 : 유한개의 백색잡음의 결합, 언제나 정상성, 시계열이 같은 시점의 백색잡음과 바로 전 시점의 백색잡음의 결합(ACF절단점,PACF감소)
    9. 분해 시계열 : 시계열에 영향을 주는 일반적 요인을 분리해 분석하는 방법 (종류: 경향(추세), 계절, 순환, 불규칙)
    10. 다차원척도법 : 군집분석처럼 개체들 사이의 유사/비유사성을 측정하여 2,3차원 공간에 뿌려줌(패턴,구조,데이터 축소)
    11. 계량적 MDS - 구간척도, 비율척도, 비계량적 MDS - 순서척도
    12. 주성분분석은 비지도학습, 상관성 높은 변수들의 선형결합으로 만듬. , 차원 축소
    13. 모수는 신뢰구간에 반드시 포함되는 것은 아니다.
    14. 표본오차 : 모집단을 대표할 수 있는 표본 단위들이 조사대상으로 추출못될때 발생하는 오차
         표본편의 : 모수작게,크게할때 같이 표본추출방법에서 나오는 오차, 표본추출과정에서 우선적으로 추출될 때 생기는 오차. 
         확률화(모집단으로 부터 편의되지 않은 표본을 추출하는 절차)에 의해서 없앨 수 있음. 확률화로 추출된 표본이 확률표본임.
    15. 1종 오류 : 귀무가설이 사실인데도 불구하고 사실이 아니라고 판정 - 잘못되었을 실제확률 : p-value
    16. 표본편의는 확률화로 없애거나 최소화가능.
    17. 모집단에서 n개 임의추출한 표본의 분산 -> 카이제곱 분포
    18. p-value는 귀무가설을 사실이라고 가정할때 통계량이 얼마나 지지하는지 확률값임.
    19. df는 자유도를 의미

    20. 신뢰구간 옵션 : conf.level = 0.99(99%신뢰구간)

    21. 비모수 검점은 부호나, 순위를 이용해 검정을 실지함.
    22. 파레토 그림 : 명목형 자료에서 '중요한 소수'를 찾는데 유용한 방법
    23. 스피어만 상관계수 : 선형, 비선형관계 모두 나타냄. 서열척도 관계 측정, -1~1값(피어슨도 똑같)
    24. 상관계수 : 크기를 가지고 선형관계를 비교는 가능하나 선형관계를 가진다고 확정은 못함. 또한 유의성도 판단할 수 없음.
    25. 회귀식의 가정 : 독립변수 기울기 0이다 -> 귀무가설, 독립변수 기울기 0아니다-> 대립가설
    26. 정규성 : 히스토그램, Q-Q plot, Shapiro-Wilks test
    27. 자기회기식에는 백색잡음이 존재함.
    28. 평균 고유값 방법 :  고유값들의 평균을 구한 후 고유값이 평균값 이상이 되는 주성분을 설정하는 방법.(주성분분석)
    29. 전체 변이 공헌도 방법 : 전체 변이의 70~90% 정도가 되도록 주성분을 설정(주성분분석)
    30. 시계열 데이터 분석 절차 : 시간그래프그리기 - 추세, 계절성 제거 - 잔차예측 - 잔차 모델 적합 - 미래 예측
    31. lasso회귀 모형 : 절대값의 크기가 클수록 penalty부과, 자동적으로 변수선택, Lamda값으로 penalty조정, L1 penalty 사용
    32. 교차분석 : 두 문항모두 번주형 변수일 때만 사용, 교차표로 교차빈도 집계와 변수들간의 독립성 검정, 관찰도수에 비교될 수 있는 기대도수 계산
    33. 최소제곱 : 회귀계수의 추정치는 보통 제곱오차를 최소로 하는 값을 구함.
    34. 정상 시계열 : 시점에 상관없이 시계열의 특성이 일정하다
    35. 분해 시계열 : 상시계열에 영향을 주는 일반적 요인을 시계열에서 분리하는 분석 방법
    36. 중앙값 : 전체의 중앙에 위치한 수치.

    1. 홀드아웃 : 주어진 데이터를 랜덤하게 두개의 데이터로 구분하여 사용하는 방법, 학습용, 시험용으로 분리하여 사용
    2. 교차확인 : k개의 하부집단으로 구분하여 k-1개의 집단은 학습용, 나머지는 검증용
    3. 예측에 P/N쓰기
    4. 특이도 : TN/TN+FP, 민감도(재현율) : TP/TP+FN, 정확도 : TP/TP+FP
    5. F1 score : 2 x 정확도 x 민감도 / 정확도 + 민감도
        정확도와 재현율은 지표 값이  높아지면 다른 지표값이 낮아질 가능성이 높은 관계를 지녀, 이런 것을 보정한 하나의 지표
    6. 과대적합 : 모형이 학습용 데이터를 너무많이 학습하여, 테스트에서 성능이 낮음
       과소적합 : 너무 모형이 단순하여 데이터 속에 내제되어 있는 패턴이나 규칙을 제대로 학습하지 못하는 경우
    7. 로지스틱 회귀분석(분류분석) : 반응변수가 범주형일 경우 적용되는 회귀분석모형, 0~1값을 가짐.
       모형의 적합을 통해 추정된 확률 - 사후확률, 카이제곱 검정, 최대우도추정법, glm()함수를 사용.
       선형회귀분석 : 연속형 변수, 최소제곱법, t,f-검정
    8. 오즈비 : 성공확률이 실패확률의 몇 배인지?
    9. 의사결정나무는 예측력과 해석력에 치중한다. 활용 - 세분화, 분류, 예측, 차원축소 및 변수선택, 교호작용효과의 파악
    장점 : 수치형 변수나 범주형 변수 모두 사용가능, 분류 정확도가 높고, 비정상 잡음 데이터에 민감하지 않다. 만드는 방법도 복잡하지 않음
    단점 : 과대적합가능성이 높다. 경계선 부근의 오차가크다. 설명변수간의 중요도 파악이 쉽지 않다.
    party패키지를 이용.
    10. 가지치기 : 오차를 크게할 위험, 부적절한 추론규칙 가지를 제거, 비용-복잡도 가지치기를 이용하여 성장시킨 나무를 가지치기함, 과대적합 방지
         정지규칙 : 나무를 성장하다가 적절한 부분에서 중단, 더 이상 분리가 일어나지 않음, 끝마디, 깊이를 지정
    11. 지니지수 : 1-SUM(pi)^2, 엔트로피지수 : -(SUM(pilogpi)
    12. CART : 범주형 - 지니지수, 연속형 - 이진분리
         C4.5 : 다지분리, 엔트로피지수
         CHAID : 범주형 - 카이제곱 통계량
         공통 개념은 하향식 의사결정 흐름, 해시 탐색 기반의 구조를 가진다.
    13. 배깅 : 자료에서 여러개의 붓스트랩을 생성하고 각 붓스트랩(동일 크기의 랜덤 복원추출로 뽑은 자료)의 예측모형을 만든 후 결합하여 최종 예측모형을 만드는 방법,가지치기 이용X
    14. 부스팅 : 예측력이 약한 모형을 결합하여 강한 예측모형을 만드는 방법
    15. 랜덤 포레스트 : 무작위성을 많이 주어 약한 학습기를 생성후 이를 선형결합 하여 최종 학습기를 만듬. 의사결정나무의 분산이 크다는 점을 개선.
          + 전체 변수 집합에서 부분 변수 집합을 선택 후 각각 데이터 집합에 대해 모형생성후 결합
    16. 붓스트랩의 36.8%가 샘플에 한번도 선택되지 않은 원데이터 비율
    17. 인공신경망은 활성화 함수를 통해서 출력 결정 -> 입력신호의 가중치합을 계산후 임계값과 비교. 작으면 -1, 크면 +1
    18. 시그모이드 함수 : 로지스틱회귀분석과 비슷, 0~1의 확률값
         softmax함수 : 표준화지수 함수, 출력값이 여러개, 목표치가 다범주인 경우 각 범주에 속할 사후확률 계산
    19. Relu : 0이하는 0, 나머지는 x값, 최근 딥러닝에서 많이 씀
    20. 신경망 모형 구축시 고려사항 : 입력 변수, 가중치 초기값, 다중 최소값, 학습모드, 은닉층과 은닉노드수, 과대 적합 문제
    21. 군집분석 연속형 변수 : 유클라디안 거리(통계 x, 산포정도 감안 x), 표준화 거리, 마할라노비스 거리(통계 o, 산포정도 감안 o, 사전지식필요, 표준화변수간의 상관성을 동시에 고려), 쳬비셰프(빼서 절대값의 max값), 맨하탄거리(x,y각각 빼서 절대값후 다더함, 수직거리), 캔버라, 민코우스키
         범주형 변수 : 자카드 거리(Boolean속성으로 이루어진 두 객체간의 유사도 측정에 사용), 자카드 계수, 코사인 거리(1-내적/루트(제곱합)+루트(제곱합)), 코사인 유사도
    22. 와드연결법 : 군집내 편차들의 제곱합을 고려, 정보 손실을 최소화하기 위해서 사용
    23. k-mean clustering(비계층적 분석): 초기값 임의 선택가능, 초기값 중심으로 군집형성, 다시 seed 계산, 연속형 변수 활용 가능, 탐욕적 알고리즘
    24. 혼합 분포 군집 : EM알고리즘(기대치 계산-> 파라미터 추정 ->갱신), 확률분포를 도입, 둘다(k-mean)이상치 자료에 민감.
    25. SOM(비지도학습) : 고차원 데이터를 저차원으로 정렬, 입력 변수의 위치 관계를 그대로 보존함, 경쟁 학습으로 각각 뉴런이 입력벡터와 얼마나 가까운지 계산하여 연결 강도 재조정 및 학습후 입력 패턴과 가장 유사한 경쟁층 뉴런이 승자, 단 하나의 전방 패스(역전파X) 속도가 매우 빠름->실시간 학습가능
        BMU : 입력 층의 표본 벡터에 가장 가까운 프로토타입 벡터
    26. 연관규칙(비지도학습) : 장바구니분석, 서열분석, 시점에 대한 정보가 포함
    27. 지지도 : P(A∩B)/전체 , 신뢰도 : P(A∩B)/P(A), 향상도 : P(A∩B)/P(A)P(B)
    28. 순차 패턴: 연관성 + 시간이라는 개념을 포함시켜 순차적임(순차 분석)
    29. Apriori : 최소 지지도 이상의 빈발항목집합(최소 지지도보다 큰 지지도 값의 품목 집합)을 찾고 그것들만 연관분석, inspect()함수는 생성된 연관 규칙을 보기 위해서 사용
        FP-Growth : 후보 빈발항목집합을 생성하지 X, FP-Tree를 만들고 분할정복 방식으로 더 빠르게 추출가능.
    30. 군집분석 - 이질적 모집단을 세분화 하는 기능
    31. 의사결정나무에서 뿌리로 갈 수록 분순도는 감소한다.
    32. %Captured Response : 해당집단 목표변수 특정범주 빈도/전체 목표변수 특정범주 빈도
    33. 재현율 : 완전성을 평가하는 지표
    34. 로지스틱 회귀모형에서 y값의 범위를[0,1]로 하기위해서 로짓을 사용.
    35. dist 함수에서 지원하는 거리 측도가 아님 : cosine거리
    36. 와드연결법 : 오차제곱합이 이전보다 증가한 정도가 작아지는 방향으로 군집형성하는 방법
    37. k-means는 모든 개체가 seed에 할당 할때 까지 진행한다, 이상값에 민감한데 이런 단점을 극복하기 위한 비계층적 군집방법은 PAM이다. 또한 평균대신 중앙값을 사용하기도 한다.
    38. 피어슨 상관계수는 군집의 유사도와 상관 없다.
    39. 임의적인 모양의 군집분석에는 밀도기반 군집이 효과적이다.
    40. 최단연결법의 계산양이 평균연결법보다 적다.
    41. 특이도 : 실제값이 False인 관측지 중에서 예측이 적중한 정도
    42. 향상도 곡선 : 분류분석의 모형평가 방법으로 랜덤모델과 비교하여 해당 모델의 성과가 얼마나 향상되었는지 등급별파악 그래프
    43. 실루엣 지표 : 군집분석의 품질을 정량적으로 평가하는 대표적인 지표, 응집도와 분리도를 계산하여 완벽분리에는 1값을 가짐.
    44. 평균모집단에서 n개를 임의추출한 표본분산은 카이제곱 분포를 따름
    45. 잔차도를 보고 선형성을 알 수 있다.
    46. 결정계수 : 총제곱의 합 중 설명된 제곱의  합의 비율, 독립변수와 종속변수 간의 표본상관계수 r의 제곱값과 같음.
    47. 차분 - 평균이 일정하지 않을 때, 변환 - 분산이 일정하지 않을 때
    48. ROC : 사후 확률과 각 분류기준값에 의해 오분류 행렬을 만들고, 민감도와 특이도를 산출하여 도표에 도식화한 후 평가하는 방식
    49. 샘플 : 모집단을 조사하기 위해 추출한 집단
    50. 데이터 프레임은 테이블로 된 데이터 구조 + 리스트로 표현
    51. 종속변수 설명에 가장 중요한 독립변수 : 표준화 자료로 추정한 계수가 가장 큰 변수
    52. 주성분분석은 회귀모형의 변수선택에 맞지 않는다.
    53. 마할라노비스 거리는 : 변수의 산포를 고려한 표준거리이다.(사전지식이 필요하다)
    54. 향상도가 1보다 크면 예측에 우수함.
    55. 구간추정 : 일정한 크기의 신뢰구간으로 모수가 특정 구간에 있을 것이라고 선언
    56. 고객의 보험갱신 여부를 채널등 정보로 예측 -> 랜덤포레스트
    57. 최소제곱법 : 회귀모형의 계수를 추정하는 방법, 잔차제곱합을 최소화하는 계수를 찾는 방법
    58. 차분 : 시계열 분석에서 비정상시계열을 정상시계열로 바꿔주는 방법
    59. 상관분석에서 선형성은 알 수 없다.
    60. 변수들이 상관성이 있어 해석상 복잡한 구조적 문제발생으로 주성분분석을 하는 것은 아니다.
    61. AR모형 : p시점 전의 자료가 현재 자료에 영향을 주는 모형
    62. 결정계수 구하는 법 : SUM이 있을 것임. 독립변수다더한값/SUM다더한값(SSR/SST : 회귀제곱합/전체제곱합)
    63. 주성분1은 변동을 최대로 설명해주는 방향으로 변수들의 선형결합식
    64. k-mean순서 : 군집중심으로 k개 객체 선택 - 중심에 할당 - 업데이트 - 반복
    65. '조건+결과' - 연관규칙
    66. 최단연결법은 계층적 군집을 수행하기 위한 cluster dendrogram을 그릴 수 있음
    67. 정상성은 오차의 분포가 정규분포
    68. 중앙 50%의 데이터들이 흩어진 정도 : 사분위범위
    69. lazy learning : 최근접 이웃 모형
    70. 스피어만 상관계수는 비선형, 선형 관계도 모두 나타낼 수 있음
    71. 앙상블 모형에서 각 모형의 상호 연관성이 높을 수록 정확도는 떨어진다.
    72. 포화 문제 : 가중치의 절대값이 커져서 과소적합이 발생
    73. 실루엣 계수 : 군집의 밀집정도를 계산한느 방법
    74. 범주 불균형 문제 : 분류 모형을 구성할 때 관측지가 부족하여 모형을 학습하기 힘든 문제
    75. 군집 갯수 안정해도 됨 - 계층적 군집, 정해야 함 - k-mean, SOM, 혼합분포군집
    76. min-max정규화 : 정규화 할때 원 데이터의 분포를 유지하면서 정규화가 가능한 방법
    77. 향상도 : 상관관계를 기준으로 도출된 규칙의 예측력을 평가하는 지표
    78. 은닉층이 너무많아서 발생하는 문제 - 기울기 소실 문제
    79. 통계량 : 모수를 추정하기 위해 구하는 표본의 값들

    반응형
Designed by Tistory.