저번 포스팅에서 [Time Series Forecasting (TSF) Using Various Deep Learning Models] 논문 소개 및 사용할 딥러닝 모델 프레임워크를 소개하였다.
[Paper Review] Time Series Forecasting (TSF) Using Various Deep Learning Models (1)
목차 Ⅰ. Introduction Ⅱ. Methodology Ⅲ. Deep Learning Frameworks 논문의 목적 time series 데이터에 대해 RNN, LSTM, GRU, Transformer 4개의 모델들을 학습 및 평가하여 비교한다. 각 모델들의 강점과 약점을 평가한
y8jinn.tistory.com
이어서 오늘은 소개한 내용들을 기반으로 시계열 데이터에 접목시킨 딥러닝 모델들의 성능과, w,k의 영향력을 비교해 보겠다.
목차
IV. DATA AND EXPERIMENTS
- 데이터
사용할 데이터는 2010년 1월 부터 2014년 12월 31일까지 5년동안 수집된 hourly time series 데이터로 43,824개의 rows와 13개의 columns로 구성되어 있다.
pollution, dew, temp, press, wnd_spd, snow, rain의 7개의 변수 즉, 7개의 columns가 추가 되었다.
Figure7은 7개의 추가변수들에 대한 시계열 변수들의 plot이다.
- 데이터 전처리
데이터는 셔플하지 않고 시간 순서대로 split하였고, 70:30 비율로 train set와 test set를 나눠주었다.
범주형 변수는 원핫 인코딩을 진행하였고, 수치형 변수는 min-max normalization을 진행했다.
- Experiments
각 모델마다 TABLE II와 같이 실험을 진행하였고, loss function은 MSE, metrix은 MAE와 RMSE로 진행하였다.
V. RESULTS
A.Predict Multiple Timesteps Ahead
(1) Multi-step에서 w=96(4days)를 고정하여 k를 늘려감에 따라 나오는 알고리즘별 각 성능과 관찰되는 결과를 비교한다.
1. Transformer 모델이 전체 실험에서 8개의 결과가 가장 좋은 성능을 보임
2. 모든 모델이 k가 늘어남에 따라 예측력이 떨어짐 (더 멀리까지 예측하는 거니까 당연함)
++ k=4 이상부터는 급격하게 오차가 커짐
3. 한 시점만 예측하는 k = 1 hour에서는 LSTM, GRU, Transformer가 비슷한 성능을 보임
B.Different Look-back Window Sizes
(2) Single-step predictions: w를 각각 조절하여 알고리즘 별 각 성능과 관찰되는 결과를 비교한다. (k=1)
1. Transformer 모델이 6개의 결과에서 best 성능을 보임 ( w = 4, 8, 16 days)
(attention 기반의 Transformer의 장점)
2. w = 1, 2 days일 때는 LSTM과 GRU의 성능이 RNN, Transformer 보다 좋음
=> LSTM과 GRU는 RNN보다 장기기억 능력도 좋고, 기울기 소실 문제도 잘 다루고 있음
=> Single-step predictions에서 window size를 작게 잡는다면, LSTM과 GRU가 Best임
(Transformer는 확실히 장기기억 능력은 가장 좋지만, w가 작을 때의 GRU와 LSTM의 성능을 이기지 못함, input data가 크면 클수록 noise가 추가되기 때문)
✅ window size를 작게 하여, single step으로 LSTM이나 GRU를 선택하는 것이 가장 좋음.
(3) Multi-step predictions: w를 각각 조절하여 알고리즘 별 각 성능과 관찰되는 결과를 비교한다. (k=3)
1. Multi-step predictions에서는 w사이즈 상관 없이 Transformer 성능이 가장 좋음
2. w= 2, 4days일 때 가장 성능이 좋음
✅ multi-step을 예측하는 문제에서는 Transformer 모델이 가장 성능이 좋으며 최적의 window size가 있음
VI. CONCLUSIONS
1. Transformer는 먼 미래를 예측할 때 유리하고, LSTM과 GRU는 짧은 시점에서 예측할 때의 성능이 RNN보다 우수하다.
2. Window size인 w는 성능에 큰 영향을 미치는 아주 중요한 변수이며, 최적의 하이퍼 파라미터가 존재한다.
3. single-step의 예측에는 w = 1 days(24*1) 가 최적의 값이었으며, multi-step 예측에서는 Transformer가 압도적인 성능을 보인다.
single-step 예측에서 Transformer는 w 사이즈가 커야 성능이 잘 나오며, w가 작을 때는 GRU와 LSTM의 성능이 좋다.
'Deep Learning & AI > Time-Series' 카테고리의 다른 글
[Paper Review] Time Series Forecasting (TSF) Using Various Deep Learning Models (1) (0) | 2024.04.01 |
---|---|
[시계열 분석] ARIMA(AutoRegressive Integreted Moving Average) - 자기 회귀 누적 이동 평균 모델 (0) | 2024.02.26 |
[시계열 분석] 정상성 (0) | 2024.02.19 |
순서가 있는 데이터를 위한 딥러닝 기본 - RNN BPTT (1) | 2024.02.12 |
순서가 있는 데이터를 위한 딥러닝 기본 - RNN 핵심 이해 (1) | 2024.02.11 |