Data Science/자격증 공부
[ADsP] 주성분 분석
아란정
2024. 8. 5. 11:57
728x90
반응형
PCA (Principle Component Analysis)
- 차원 축소로 복잡한 데이터 구조를 파악할 수 있는 방법
- 상관관계가 있는 변수를 결합해 상관관계가 없도록 선형결합해 분산을 극대화한다.
- 표본의 크기가 작거나 순서형 자료를 포함하는 범주형 자료에 적용 가능
- 주로 3개 이내의 변수로 축약한다.
- 예측 모델 만들 때 주로 사용한다.
- 다변량 자료를 저차원으로 표시하여 Outlier 탐색에 사용한다.
주성분 분석의 목표는 데이터를 설명하는 방향성을 찾는 것이다.
- 이 방향은 데이터의 분산을 최대화하는 방향이다.
여기서 분산이란 평균에서 멀리 떨어진 만큼을 의미하며, 분산이 크다는 것은 데이터가 다양함을 의미한다.
- 변동성이 크다고 해석할 수도 있다.
- 다양한 범위에 걸쳐 분포되어 있는 데이터는 폭 넓은 특성과 패턴을 나타낼 수 있다.
A_pca <-(A2[, -score], scales = TRUE)
Summary(A_pca)
importance of components:
PC1 PC2 PC3 PC4
Standard deviation 2.08 0.95 0.911 0.641
Portion of Variance 0.618 0.128 0.119 0.054
Cumulative preportion 0.618 0.718 0.865 0.99
PCA에서 자료를 2개의 주성분으로 축약할 때 전체 분산의 78% 설명 가능하다는 의미는 데이터가 다양한 특성(패턴)을 포함할 수 있음을 말한다.
여기서 사용된 주성분은은 원래 변수들 중 서로 상관성이 높은 변수들의 선형 결합으로 만들어진다.
728x90