Data Science

[빅데이터분석기사 필기] 키워드 정리

아란정 2025. 2. 27. 22:50

 

데이터베이스 : 일정 구조에 맞게 조직화된 데이터의 집합

데이터베이스의 특징

  1. 공용 데이터: 여러 사용자가 서로 다른 목적으로 데이터 공동 이용
  2. 통합된 데이터: 동일한 데이터가 중복되어 있지 않음
  3. 저장된 데이터: 저장매체에 저장
  4. 변화되는 데이터: 새로운 데이터 추가, 수정, 삭제에도 현재의 정확한 데이터 유지(무결성)

 

데이터 산업의 이해

데이터 사이언스: 정형/비정형 데이터를 막론하고 데이터 분석(총체적 접근법)

  1. Analytics: 이론적 지식
  2. IT: 프로그래밍적 지식
  3. Business: 비즈니스적 능력

Hadoop: 여러 컴퓨터를 하나로 묶어 대용량 데이터를 처리하는 오픈 소스 빅데이터 솔루션

빅데이터 기술 및 제도

빅데이터 플랫폼의 계층 구조

  1. 소프트웨어 계층 : 데이터 수집 및 정제, 처리 및 분석, 사용자/서비스 관리
  2. 플랫폼 계층 : 데이터 및 자원의 관리, 작업 스케쥴링, 프로파일링
  3. 인프라 계층 : 자원의 배치 및 관리, 저장장치 및 네트워크 관리

분석 지원 인프라 방안 수립

 - 확장성을 고려한 플랫폼 구조 적용(중앙집중적 관리)

(1) 분석 플랫폼 구성요소

  1. 광의의 분석 플랫폼 (비전문가도 사용가능한) : 분석 서비스 제공 엔진, API, 하드웨어
  2. 협의의 분석 플랫폼 (전문가) : 데이터 처리 프레임워크, 분석 엔진, 라이브러리

 

분석 문제 정의

하향식 접근 방법: 문제가 주어지고 해답을 찾기 위해 진행
문제 탐색 - 문제 정의 - 해결방안 - 타당성 검토

  1. 문제탐색 : 빠짐없이 문제를 도출하고 식별하며, 솔루션 초점보다는 가치에 초점
  2. 비즈니스 모델 캔버스 단순화한 측면이 있다 : 업무, 제품, 고객, 규제와 감사, 지원인프라

상향식 접근 방법: 문제 정의 자체가 어려울 때, 사물을 그대로 인식하는 What 관점
-> 주로 비지도 학습에 사용

 

데이터 수집 및 전환

  • ETL: Extraction, Transformation, Load 3단계를 통해 DW와 DM 등의 DB 시스템에 데이터 적재
  • FTP : TCP/IP 네트워크에서 컴퓨터들 간 파일을 교환하기 위한 통신 규악
  • API : 응용 프로그램에서 다른 프로그램으로 데이터를 전송할 수 있는 인터페이스
  • 스쿱(Sqoop) : RDBMS와 하둡간 대용량 데이터를 전송하는 도구
  • 웹 크롤링

데이터의 척도 구분

  1. 질적 척도
    • 명목척도: 어느 집단에 속하는지 나타내는 자료(대학교, 성별)
    • 순서척도(서열척도) : 서열관계까 존재하는 자료(학년, 순위)
  2. 양적 척도
    • 등간척도(구간척도) : 구간 사이 간격이 의미가 있으며 덧셈과 뺄셈만 가능(온도, 지수)
    • 비율척도 : 절대적 기준 0이 존재하고 사칙연산이 가능한 자료(무게, 나이)

프라이버시 보호 모델

  1. k - 익명성 : 특정인에 대한 추론 여부 검토 - 일정 확률 수준 이상 비식별되도록 한다.
  2. l - 다양성: 민감한 정보의 다양성을 높여 추론 가능성을 낮춤 
    -> 동일한 식별자를 가진 그룹(같은 나이, 지역 등)에서 민감한 속성 값이 최소 l개 이상 서로 다르게 분포하도록
  3. t - 근접성: 민감 정보의 분포를 낮춰 추론 가능성을 더욱 낮춤
    -> 민감한 속성의 분포를 전체 데이터와 비슷하게 유지

데이터 품질 검증 : 유효성, 활용성

데이터 적재 및 저장

분산 파일 시스템

  • HDFS(하둡 분산파일 시스템)
    • 분산 처리로 시스템 과부하 및 병목 현상 해소
  • MapReduce
    • 분산된 데이터를 병렬로 처리하는 하둡의 핵심 모듈
    • 조인 패턴, 그룹화 패턴, 단어카운트 패턴, 통계 패턴, 필터링 패턴
  • GFS
    • 구글의 데이터 처리를 위해 설계된 분산 파일 시스템

 

DW, DM, Data Lake 

  • Data Warehouse
    • 큰 DB로 분석목적 설정이 중요하다. 일관화된 형식으로 데이터를 통합하고, 시계열성(히스토리가 있는 데이터), 비휘발성(읽기 전용)을 특징으로 가진다. 
  • Data Mart
    • 데이터 웨어하우스의 한 분야로, 특정 목적을 위해 사용된다. (소규모 데이터웨어하우스)
  • Data Lake
    • 비정형 데이터를 저장하며 하둡과 연계해 처리한다. 

데이터 웨어하우스/레이크 -> 마트로의 이동은 ETL을 활용한다. 

 

데이터 전처리

데이터 정제

데이터의 종류

  • 단변량 데이터
  • 다변량 데이터
  • 시계열 데이터

데이터 정제

  • 집계 : (합계, 평균, 분산, 개수, 최대/최소)
  • 일반화 : 데이터의 일반적인 특성 추출
  • 정규화 : 데이터를 정해진 구간으로 조정해 상대적 차이 제거
  • 평활화: 잡음을 제거해 추세를 부드럽게 만듦 (이동평균법, 지수평균법) - 시계열 데이터

 

데이터 결측값 처리

존재하지 않는 데이터를 대치하는 방법으로, 무응답처럼 의미 있는 데이터일 수도 있다. 

다중대치법: 여러 번 대치(대치-> 분석 -> 결합)

 

이상값 처리 : 의미 있는 데이터일 수 있으므로 항상 제거하는 것은 아니다. 

  • ESD(Extreme Studentized Deviation)
  • 사분위수

변수 변환

수치형 자료와 범주형 자료

수치형 변수 변환

  1. Z-Scroe 정규화
  2. 최소-최대 정규화
  3. 로그 변환

범주형 변수 변환

  1. 레이블 인코딩 : 데이터를 정수로 변환 (오렌지, 바나나, 포도 -> 0, 1, 2)
  2. 원-핫 인코딩
  3. 타킷 인코딩 : 타킷 변수를 평균값으로 변환

분석 변수 처리

데이터 탐색

통계기법 이해

전수 조사와 표본 조사

표본 추출 방법

  1. 랜덤 추출법
  2. 계통 추출법: 번호를 부여해 일정 간격으로 추출
  3. 집락 추출법: 여러 군집으로 나눈 뒤, 군집을 선택해 랜덤 추출
    -> 군집 내 이질적, 군집 간 동질적
  4. 층화 추출법: 군집 내 동질적, 군집 간 이질적 특징 (1학년, 2학년, 3학년)
    - 같은 비율로 추출 시, 비례 층화 추출법
  5. 복원, 비복원 추출법

확률 분포

  1. 이산 확률 분포
  2. 연속 확률 분포
    1. 정규분포
    2. t분포 : 두 집단의 평균치 차이의 비교 검정 시 사용 (데이터 개수 30개 이상시 정규성 검정 불필요)
    3. 카이제곱분포 : 두 집단의 동질성 검정 or 단일 집단 모분산에 대한 검정
      - 맴도날드에서 햄버거 종류별 판매량이 예상한 비율과 일치한지 확인
      - 전공과 스마트폰 브랜드 선호도 사이 관련이 있는지 조사
    4. F분포 : 두 집단 분산의 동일성 검정 시 사용
      - 분산분석(ANOVA, Analysis of Variance) : 세 개의 다이어트 프로그램을 시도한 그룹이 있을 때, 각 그룹에서 체중 감소량 측정치가 프로그램 간에 유의미하게 다른지 알고 싶을 때 사용 -> 세 그룹의 분산 차이 비교로 평균 차이가 유의미한지 확인
      - 두 개의 공장에서 생산한 제품의 품질 비교 -> 두 집단의 분산 비율 계산 

날짜/시간 변수 변환

  1. 분할: 데이터를 년, 월, 일, 시, 분, 초 등으로 분할
  2. 파생: 시간대(오전, 오후), 요일 또는 계절 등의 파생변수 생성

불균형 데이터 처리

  1. 가중치 균형 적용(Weighted Balance)
    1. 불균형 데이터에 가중치를 주는 방법
  2. 언더샘플링
    1. 다수의 데이터 중 일부만 선택
    2. 랜덤 추출법, 계통 추출법, 집락 추출법, 층화 추출법
  3. 오버샘플링
    1. 데이터를 복사하거나 유사한 데이터를 만드는 방식
    2. SMOTE, ADSYN, ROS

비정형 데이터 탐색

자연어 전처리

  1. Tokenization
  2. Stop Words
  3. Regulazation
  4. Stemming
  5. Lennatization

이미지 전처리

  1. Resizing 이미지의 사이즈나 Shape 변환
  2. GrayScaling 다중 채널의 이미지를 단일 채널 이미지로 변환 
  3. Binarization 
  4. Morphology 이미지 객체 형태와 구조를 분석하고 처리하는 기법

 

시계열 분석 : 시간의 흐름에 따라 관찰된 자료의 특성을 파악하여 미래를 예측 (주가 / 기온 데이터)

평활화: 뾰족뾰족한 걸 부드럽게

  • 정상성 Stationary
    • 시계열 예측을 위해서는 모든 시점에 일정한 평균과 분산을 가지는 정상성을 만족해야 한다. 
      1. 차분: 현 시점의 자료를 이전 값으로 빼는 방법
      2. 지수변환, 로그변환
  • 백색 잡음 : 시계열 모형의 오차항을 의미하며 원인은 알려져 있지 않음
    • 평균이 0이면 가우시간 백색잡음

 

시계열 모형

  • 자기회귀(AR) 모형: 자기자신의 과거 값이 미래를 결정하는 모형
    • 부분자기상관함수(PACF)를 활용하여 p+1 시점 이후 급격 감소하면 AR(p) 모형 선정
  • 이동평균(MA) 모형: 이전 백색잡음들의 선형결합으로 표현되는 모형
    • 자기상관함수(ACF)를 활용하여 q+1 시차 이후 급격히 감소하면 MA(q) 모형 선정
  • 자기회귀누적이동평균(ARIMA) 모형: AR 모형 + MA 모형의 결합
  • ARIMA(p, d, q)
    1. p, q는 AR모형과 MA 모형이 관련있는 차수
    2. d는 정상화시에 차분 몇 번 했는지 의미
    3. d = 0 이면 ARMA 모델
더보기

AR은 PACF, MA는 ACF를 이용하는 이유?

AR은 과거 자기 자신의 값을 기반으로 현재 값을 예측할 때 모든 시차(lag)에 걸쳐 영향을 받을 수 있어 시차가 증가해도 천천히 감소하는 경향을 보인다. 그러나 PACF는 특정 시차에서 다른 중간 시차들의 영향을 제거하고 해당 시차의 순수한 자기상관을 측정한다.

MA모형에서는 ACF가 특정 차수에서 급격히 감소하고, PACF는 점진적으로 감소하기 때문에 ACF로 차수를 결정한다. 

 

분해시계열 : 시계열에 영향을 주는 일반적인 요인을 시계열에서 분리해 분석하는 방법

  1. 추세 요인: 장기적으로 증가/감소하는 추세
  2. 계절 요인: 계절과 같이 고정된 주기에 따라 변화
  3. 순환 요인: 알려지지 않은 주기로 변환(경제 전반, 특정 산업)
  4. 불규칙 요인: 위 3가지로 설명 불가능한 요인

 

인공신경망

인공의 뇌 구조를 모방한 퍼셉트론을 활용한 추론 모델

  1. 단층 신경망(단일 퍼셉트론): 입력층과 출력층으로 구성
  2. 다층 신경망: 입력층과 출력층 사이에 1개 이상의 은닉층 보유

활성화 함수: 인공신경망의 선형성 극복을 위한 함수 (XOR 문제 해결)

  1. 시그모이드 함수
  2. 소프트맥스 함수
  3. 하이퍼볼릭 탄젠트
  4. ReLU 함수: 기울기 소실 문제 극복

 

딥러닝 분석

  • DNN : 은닉층이 2개 이상으로 구성된 인공신경망
  • CNN : Convolution Layer + Pooling Layer를 활용해 이미지에서 패턴을 찾는 신경망
    • 개선된 CNN 모델: YOLO
  • RNN(순환신경망) : 순차적인 데이터 학습에 특화된 순환구조를 가지는 신경망
    1. 장기의존성 극복 모델 : 오래된 데이터는 잊는 문제 
      1. LSTM: Forget Gate, Input Gate, Output Gate
      2. GRU: Reset Gate, Update Gate

오토인코더 : 입력 데이터를 인코더로 압축한 후에 디코더로 형태를 복원하는 비지도 학습 신경망
-> 생성형 AI

구조: Encoder - Context Vector(Latent Space) - Decoder

  1. VAE: 확률분포를 학습하여 데이터 생성
  2. GAN: 생성기와 판별기의 경쟁으로 유사한 데이터 생성(적대적 훈련)
  3. DCGAN: GAN + CNN

 

비정형데이터 분석

트랜스포머 : RNN의 느린 속도와 병렬처리 불가 단점을 개선한 Attention 모델

  1. 구성요소: Positional Encoding, Self-Attention, Feed Forward Network
  2. 주요 모델
    1. BERT; 구글 개발, 인코더 구조, 문장 중간 빈칸 학습, 양방향
    2. GPT; OpenAI 개발, 디코더 구조, 이전 단어로 다음 단어 예측, 일반향

기타 비정형 데이터 분석

  1. 유전자 알고리즘 : 최적화 문제; 택배차량 배치, 프로그램 방송 시간대 배치
  2. 감정분석
  3. 소셜 네트워크 분석 : 영향력 높은 사람 찾기

앙상블 분석 : 여러 개의 예측 모형들을 조합하는 기법으로 전체적인 분산을 감소시켜 성능 향상

  • Voting : 다수결로 최종 모델 선택
  • Bagging : 복원추출에 기반을 둔 붓스트랩을 생성해 모델 학습 후 보팅으로 결합
    • 복원 추출 무한히 반복시 특정 하나의 데이터가 선택되지 않을 확률 : 36.8%
  • Boosting : 잘못된 분류 데이터에 큰 가중치를 주는 방법, 이상치에 민감
    • AdaBoost, GBM, XGBoost, Light GBM
  • Random-Forest : 배깅에 의사결정트리를 추가하는 기법으로 성능이 좋고 이상치에 강한 모델

보팅, 배깅, 랜덤포레스트는 병렬처리가 가능하며, 부스팅은 병렬처리 불가

 

모수/ 비모수

모수(통계적 모집단): 모집단의 특성 : (통계적인) 관찰(연구)의 대상이 되는 집단 전체로, (통계적) 측정이나 조사를 위한 표본을 뽑아내는 바탕

통계량: 표본을 나타내는 수치(모집단의 모수를 추정하기 위해 표본에서 계산한 추정량의 값)

모수/비모수 통계
모수적 통계: 모집단의 확률분포를 엄격하게 가정하고, 모집단에서 추출된 표본의 자료를 등간척도나 비율척도로 측정해 모수에 관한 통계적 추론을 다루는 통계방법

  • 전집분포(모집단)의 정규성(Normality of Distribution): 정규분포 (:특정값의 출현 비율을 그릴때, 중심(평균)을 기준으로 종모양)
    • 표준 정규 분포(Standard Normal Distribution); 평균이 0이고 표준편차가 1인 분포(z-분포)
  • (집단 내) 변량의 동질성(Homogeneity of Variance)
    • 집단 내 변량 (SSW: Sum of Squares Within groups) : 각 표본집단 내 개별 관찰값이 각 표본집단 평균을 중심으로 어느정도 떨어져 있는가를 나타낸다. (=오차변량, 여기서 '오차'는 '설명할 수 없는'을 의미한다.)
    • 집단 간 변량(SSB: Sum of Squares Between groups) : 독립변수에 의해 나눠진 각 집단의 평균이 전체표본 평균의 중심으로 얼마나 떨어져 있는가를 나타낸다. (=설명변량)
  • 측정치의 연속성 혹은 등간성(상대적인 크기로 표현할 때 각 순위별로 동일한 간격 유지)

비모수적 통계방법: 위 세가지 가정이 특별히 요구되지 않는 통계방법

  • 일반적으로 명명척도나 서열척도에 의해 얻어진 변인들 사이의 검증에 사용된다.
  • 정규성 검정에서 정규분포를 따르지 않는다고 증명되거나, 표본의 개수가 10개 미만일 때 사용한다.  
모수적 통계방법 비모수적 통계방법
t-검증, 변량분석, 피어슨 적률상관관계, 단순선형회귀분석 x^2, Mann-Whitney U test, 스피어만의 순위차상관계수, 켄달의 순위 상관계수

비모수 검정

  • 모집단에 대한 아무런 정보가 없을 때
  • 관측 자료가 특정 분포를 따른다고 가정할 수 없다
  • 두 관측 값의 순위나 차이로 검정한다
  • 부호검정, 순위합검정, 만-휘트니 U검정, 크러스컬-윌리스 검정

 

고급 분석기법

confusion matrix

  • accuracy
  • precision  모델이 T라고 예측했을 때, 실제값이 T인 비율
  • recall  실제값이 T일 때, 모델이 T라고 예측한 비율

precision 과 recall은 trade-off 관계

모델은 임계값(Threshold)을 기준으로 T, F 를 나눈다. 임계값을 0.6으로 둔다면 False가 더 많고 이에 따라 recall이 낮아진다. Precision 분모의 FP(모델이 Positive라고 예측했을 때 실제값이 Negative인 횟수)가 줄어들고 Precision은 증가한다. 

Precision : TP / (TP + FP)
Recall : TP / (TP + FN)

TP: True다 Positive가 == 긍정으로 예측한 값이 맞다.
TN: True Negative == 부정으로 예측한 값이 맞다.
FN: False Negative == 부정으로 예측한 값이 틀렸다. 
FP: False Positive == 긍정으로 예측한 값이 틀렸다. 

범주형 자료 분석 

상대 위험도(RR) = 알콜 중독이 False일 때 알콜 중독 True인 비율

 

분석모형 개선

과대적합 방지방안

  1. 모델의 복잡도 감소 : 경량화된 모델의 활용, Dropout
  2. 규제
    1. L2(릿지) 규제 : 유클리디안 거리 기반
    2. L1(라쏘) 규제 : 맨하탄 거리 기반
  3. 편향-분산의 트레이드 오프 확인

 

분석결과 활용