Data Science/자격증
[ADsP] 용어 정리
아란정
2024. 8. 5. 12:46
728x90
반응형
SVM
앙상블 기법
- Bagging
원 자료로부터 Bootstrap 샘플을 추출하고, 각 샘플에 대해 트리를 형성하고 각 노드마다 예측 변수 안에서 최적의 분할을 선택 - Random Forest
Bagging에 랜덤과정을 추가한 방법; 예측 변수를 임의로 추출해, 추출된 변수 내에서 최적의 분할을 만든다. - Boosting
예측력이 약한 모형을 결합해 강한 예측 모형을 만드는 방법; Bootstrap 표본을 구성하는 재표본 과정에서 분류가 잘못된 데이터에 더 큰 가중치를 준다. GBM
- BackPropagation Algorithm 역전파 알고리즘
신경망 모델에서 사용하는 알고리즘
인공신경망에서 동일 입력층에 대해 원하는 값이 출력되도록 개개의 weight을 조정하는 방법
- Backward Elimination 후진 제거법
독립변수 후보 모두를 포함한 모형에서 출발해 가장 적은 영향을 주는 변수부터 하나씩 제거하면서 더 이상 제거할 변수가 없을 때의 모형을 선택한다.
- 유전자 알고리즘 Generic Algorithm
생명의 진화를 모방한(Simulated Evolution) 탐색 알고리즘으로 Opitmal Solution을 구한다. - 다차원 척도법
여러 대상 간의 관계에 대한 수치적 자료를 이용해 유사성에 대한 측정치를 상대적 거리로 시각화 - 홀드 아웃 방법
모형의 평가 방법 중 하나
주어진 데이터를 랜덤하게 두 분류로 분리해 교차 검정을 실시하는 방법
하나는 모형 학습 및 구축을 위한 훈련용, 다른 하나는 성과 평가를 위한 검증용
군집 분석
- Shiloutte
군집 분석의 품질 정량 평가 지표
군집 내 cohesion과 군집 간 separation을 계산해 완벽한 분리일 수록 1을 가짐
- 군집 내 데이터 거리는 짧고, 군집 간 거리는 먼 경우
- 점 추정
모집단을 단일 수치로 제시하려는 것 - 구간 추정
- 지니 지수
불순도 측정 지표; CART의 target이 범주형일 때 사용하는 지표
728x90