RNN의 학습, BPTT (Back Propagation Through Time)
- 먼저 loss 함수를 구체적으로 기술하자면,
softmax와 CrossEntropyLoss
를 사용하는 Classification 모델이라면,
- 가중치 Wyh는 전시간에 공유되므로, Wyh를 기반으로 미분가능
- 마찬가지로 Lt+1dms ht+1과 전시간에 공유되는 Whh를 기반으로 다음과 같이 표현할 수 있음
- 이를 ht까지 확장하면, 다음과 같이 표현할 수 있음 (ht+1 계산에 ht가 사용되므로 다음과 같이 미분 가능)
-> 체인룰임
예를 들어,
이렇게 표현할 수 있음.
- 따라서, Lt+1은 다음과 같이 표현할 수 있음
- 즉, 각 시점에서 발생한 hidden state까지의 미분값을 모두 합친 것
- hidden state는 tanh 함수를 사용하고 tanh 함수의 미분은
이므로,
hidden state 미분값이 계속 곱해지면, 결국 gradient vanishing 문제 발생
- 이로 인해, 긴 sequence 를 가진 데이터(time-step이 긴 데이터)는 가중치 업데이트가 거의 되지 않는 문제 발생
- 이를 긴 sequence를 기억하지 못한다고 표현함
결론)
긴 sequence는 RNN이 해결하지 못함
'Deep Learning & AI > Time-Series' 카테고리의 다른 글
[Paper Review] Time Series Forecasting (TSF) Using Various Deep Learning Models (2) (0) | 2024.05.13 |
---|---|
[Paper Review] Time Series Forecasting (TSF) Using Various Deep Learning Models (1) (0) | 2024.04.01 |
[시계열 분석] ARIMA(AutoRegressive Integreted Moving Average) - 자기 회귀 누적 이동 평균 모델 (0) | 2024.02.26 |
[시계열 분석] 정상성 (0) | 2024.02.19 |
순서가 있는 데이터를 위한 딥러닝 기본 - RNN 핵심 이해 (1) | 2024.02.11 |