Data Science/자격증

[ADsP] 용어 정리

아란정 2024. 8. 5. 12:46
728x90
반응형

SVM

앙상블 기법

  • Bagging
    원 자료로부터 Bootstrap 샘플을 추출하고, 각 샘플에 대해 트리를 형성하고 각 노드마다 예측 변수 안에서 최적의 분할을 선택
  • Random Forest
    Bagging에 랜덤과정을 추가한 방법; 예측 변수를 임의로 추출해, 추출된 변수 내에서 최적의 분할을 만든다. 
  • Boosting
    예측력이 약한 모형을 결합해 강한 예측 모형을 만드는 방법; Bootstrap 표본을 구성하는 재표본 과정에서 분류가 잘못된 데이터에 더 큰 가중치를 준다. GBM

 

  • BackPropagation Algorithm 역전파 알고리즘 
    신경망 모델에서 사용하는 알고리즘
    인공신경망에서 동일 입력층에 대해 원하는 값이 출력되도록 개개의 weight을 조정하는 방법

 

  • Backward Elimination 후진 제거법
    독립변수 후보 모두를 포함한 모형에서 출발해 가장 적은 영향을 주는 변수부터 하나씩 제거하면서 더 이상 제거할 변수가 없을 때의 모형을 선택한다.

 

  • 유전자 알고리즘 Generic Algorithm
    생명의 진화를 모방한(Simulated Evolution) 탐색 알고리즘으로 Opitmal Solution을 구한다.
  • 다차원 척도법 
    여러 대상 간의 관계에 대한 수치적 자료를 이용해 유사성에 대한 측정치를 상대적 거리로 시각화
  • 홀드 아웃 방법
    모형의 평가 방법 중 하나 
    주어진 데이터를 랜덤하게 두 분류로 분리해 교차 검정을 실시하는 방법
    하나는 모형 학습 및 구축을 위한 훈련용, 다른 하나는 성과 평가를 위한 검증용

 

군집 분석

 


  • Shiloutte 
    군집 분석의 품질 정량 평가 지표
    군집 내 cohesion과 군집 간 separation을 계산해 완벽한 분리일 수록 1을 가짐
    - 군집 내 데이터 거리는 짧고, 군집 간 거리는 먼 경우

 

  • 점 추정
    모집단을 단일 수치로 제시하려는 것
  • 구간 추정

 

  • 지니 지수
    불순도 측정 지표; CART의 target이 범주형일 때 사용하는 지표

728x90