총 10분 중 11분
2001
시즌 2개, 그리고 영화
시즌 2: 5화 “아일랜드”
출연: 이나영, 김민준, 김민정, 현빈
장르: 애초에 역경을 딛고 이룩하는 숭고한 사랑이란 없다. 그 역경 자체가 사랑이다.
프로그램 특징: 그 곳에서 살아남는 사랑이 어떤 모습으로 걸어오는지 기다려 보고 싶다.
Data Science/Machine Learning 지도 학습: 회귀(시계열 모델)
728x90
반응형

학습 목표: 시계열 모델 개념, 금융 데이터에서 시계열 모델로 미래 가치 예측하는 방법, 시계열 모델과 지도 회귀 모델의 비교, 시계열 예측에 사용할 수 있는 딥러닝 모델(LSTM)

 - 다양한 시계열 및 머신러닝 모델의 적용과 비교

 - 모델 및 결과 해석, 선형 대 비선형 모델의 잠재적 과적합과 과소적합의 직관적 이해

 - 머신러닝 모델에 사용할 데이터 준비와 변환

 - 모델 성능 향상을 위한 특성 선택과 엔지니어링

 - 모델 성능 향상을 위한 알고리즘 튜닝, 예측을 위한 ARIMA (시계열 모델) 이해, 구현, 튜닝

 - LSTM 같은 딥러닝 기반 모델이 시계열 예측에 어떻게 사용되는 지 이해

 

목표와 예측 변수 간의 관계를 모델링한다

예측 변수란 

금융에서 회귀 기반 지도 학습의 활용 사례

- 투자 기회 예측: 자산 가격, 자산 수익 예측

- 투자 요소 탐색: 예측 변수의 속성, 다른 변수와 관계 이해

궁극적으로 포트폴리오 관리, 보험 가격 책정, 헤징, 위험 관리 등 광범위한 재무 영역에 적용

광범위한 형태에서 시계열 분석은 과거의 일련 데이터에서 무슨 일이 발생했는지 추론하고 앞으로 무슨 일이 일이 발생할지 예측하는 것

지도 회귀 모델과 시계열 모델의 차이

    모델 데이터(예측 변수)  
지도 회귀 모델 nonparametric 외생 변수  
시계열 모델 parametric  예측 변수의 과거 데이터  

parametric : 알려진 함수가 데이터를 나타내는 것으로 가정

그러나 지도 회귀는 ARIMAX로 예측 변수의 과거 데이터를 사용할 수 있고, 시계열 또한 외생 변수를 사용할 수 있다는 점에서 둘 다 유사하다. 두 모델 모두 변수의 가능한 결과의 연속 집합을 추정한다. 

 

#실전 문제 1: 주가 예측

머신러닝 기반 프레임워크; 시각화와 모델 튜닝에 중점을 두고 몇 가지 머신러닝 및 시계열 개념에 대해 논의한다.

#실전 문제 2: 파생 상품 가격 책정

지도 회귀를 이용한 파생 상품 가격 책정과 전통적인 퀀트 문제 맥락에서 머신러닝 기술 배포 방법을 보여준다.

- 머신러닝은 기존 방법과 비교했을 때 비실용적인 가정을 제하고도 빠르게 가격 설정이 가능하다. 

- 효율성과 정확성의 균형이 필요한 재무 위험 관리 영역에서 유용

#실전 문제 3: 투자자 위험 감수 및 로보 어드바이저

투자자 위험 허용 범위 추정을 위한 지도 회귀 기반 프레임워크

파이썬 로보 어드바이저 대시보드 위에서 투자 관리와 포트폴리오 관리 과정을 자동화

행동 편향으로 한계를 갖는 전통적인 위험 허용 프로파일링이나 위험 허용 설문조사 문제를 극복하기 위해 머신러닝을 효율적으로 사용하는 방법

#실전 문제 2: 파생 상품 가격 책정

지도 회귀 기반 프레임워크로 여러 수익률 곡선 테너 동시 에측

 

추가 학습 자료: Time Series Analysis and Its Applications, 4th(Springer, 2017), 핸즈온 머신러닝(2판)(한빛미디어, 2020)

 

##5.1 시계열 모델

시계열은 시간 지수로 정렬한 수의 순서이다. 

 - 시계열 구성요소

- 시계열 자기 상관과 고정성

- 전통적인 시계열 모델 ARIMA

- 시계열 모델링을 위한 딥러닝

- 지도 학습 프레임워크에서 사용하는 시계열 데이터 변환

 

###5.1.1 시계열 명세| 구성요소

시계열을 구성요소로 나누면 시계열 이해가 쉽고, 예측을 위한 움직임 식별이 용이하다. 

  - 추세: deterministic / stochastic | 근본적인 근거 / 임의적인 특성

  - 계절 (휴가철, 천연 가스 등 연간 기온과 관련한 변동)

시각화 용어: 스파이크, 노이즈

 

###5.1.2 자기 상관과 고정성

####자기 상관 autocorrelation

연속적 요소가 상관관계를 보이는, 시계열에서 연속적 점들이 변화하면 그에 따라 서로 영향

-> 관측치 간의 유사성 의미 -> 관측치 간 시간 지연 함수로 나타낸다. 

이는 자기 회귀autoregression으로 모델링할 수 있다. 자기 회귀 모델은 관심 변수를 그 변수의 과거 값의 선형적 조합으로 예측한다. 여러 시계열 패턴 처리에 놀랍도록 유연하다.

AR(p): p-차 자기 회귀 모델: 다중 회귀와 비슷하지만 예측자로 지연자yt를 갖는다.

####고정성

시계열의 통계적 특성이 시간에 걸쳐 변하지 않는다면 고정적이라고 한다. 

  - 화이트 노이즈 시계열: 임의의 시간에 항상 비슷한 패턴을 관찰할 수 있으므로 관찰이 무의미한 경우

추세와 계절성이 핵심 요인이고 평균, 분산, 공분산이 일정해야 한다. 

 

####비고정

 

1. 추세 존재

2. 추세 없으나 분산이 시간의 함수: 일정하지 않은 분산

3. 공분산이 일정하지 않다: 퍼짐이 일정하지 않다. 

공분산?

 

비고정성 계열은 고정 계열로 변환해야 한다. 

- 디퍼런싱: 시계열 연속항 간 차를 계산해 변동하는 평균을 제거한다. 

 

 

###5.1.3 전통적인 시계열 모델 ARIMA

AutoRegressive Integrated Moving Average

 

- AR(q) AutoRegressive

현재 계열값이 일정한 시간 지연으로 이전 계열값에 따라 달라진다고 가정하고 시계열을 자신의 계열에 회귀

-> 이전 시점의 값이 현재 값에 미치는 영향을 나타내는 차수

  - I(d) Integrated

차수: 시계열이 고정성을 갖기 위한 차의 수: 데이터를 stationary하게 만들기 위해 몇 번의 차분을 수행할지

  - MA(q) Moving Average

현재의 오류가 일정한 시간 지연(q)으로 이전 오류에 따라 달라진다고 가정하고 시계열의 오류 모델링

-> 과거의 오차 항이 현재 미치는 영향

* 시간 지연(Time Lag)
현재 시점의 값이 과거 시점의 값이나 정보에 의해 영향을 받는 현상

- 뉴스나 경제 지표가 며칠 후 주식 가격에 반영되는 것

 

#### 5.1.4 시계열 모델링을 위한 딥러닝

ARIMA와 같은 기존 모델은 선형 함수이거나 선형 함수의 단순 변형이므로 전문가의 직관이 필요해 왜곡 데이터같은 완전하지 않은 데이터에서 성능이 좋지 않다. 이에 딥러닝 분야의 시계열 분야를 살펴본다.

? 수동적으로 진단된 매개변수
모델 구축에서 최적화 알고리즘이나 통계적 기준이 아닌 전문가의 경험이나 직관을 바탕으로 직접 설정한 매개변수
 - ARIMA의 p, d, q는 전문가가 직관적으로 수동 선택할 수 있다.

1. RNN 순환 신경망

#은닉층

- 구조와 비선형성 같은 패턴을 찾고 다중 입력 변수로 문제 모델링 -> 불완전 데이터에 안정적

순환: 한 단계에서 얻은 출력값을 다음 단계 연산을 위한 입력으로 사용해 반복적인 전환 상태 유지(= 과거 데이터로 미래 예측)

망은 동일 망을 이용하는 것이 아니라 다음 망으로 출력값을 전달한다.

 

2. LSTM 장단기 메모리

장기 의존 문제를 해결하기 위한 RNN의 한 종류로 모델의 각 셀에 저장된 데이터의 순서를 가지고 데이터의 흐름을 감지하고 저장한다. 또한 셀은 과거의 모듈을 현재의 모듈과 연결시켜 정보를 과거에서 현재 시간으로 전달한다. 

*셀은 LSTM의 기본 단위로, 하나의 시점에서 계산을 수행하는 구조: Gate로 데이터를 입력, 유지, 출력시 조정한다. 

  - Gate는 인공 신경망층을 기반으로 하며, 각 층은 [0, 1] 값을 가지며 이로써 각 셀을 통과하는 데이터의 양을 설명할 수 있다. 

  - Forget Gate, Input Gate, Output Gate
     Forget Gate의 0은 망각, 1은 기억: 보존 여부 결정
     Output Gate는 각 셀에서 무엇을 생성할지 결정한다. 셀 상태와 새 데이터 기반으로 결정

*모듈은 셀의 집합으로 여러 시점을 처리하기 위한 구조: 시계열 데이터를 처리하는 전체 네트워크

 

 

#### 5.1.5 지도 학습 프레임워크에서 사용하는 시계열 데이터 변환 및 수정

#sliding window, #time delay, #lag

시계열이란 연속된 수를 예측하는 변수와 예측되는 변수의 집합으로 재구성하여 지도 학습에 사용할 수 있다. 이전 시간 단계를 입력 변수로 정하고 다음 시간 단계를 출력 변수로 정해 재구성한다. 

학습 모델 훈련 시 첫 열과 마지막 열은 값이 없으므로 제거한다.

- shift()

 

728x90
Data Science/Machine Learning 지도 학습: 회귀(시계열 모델)