목차 Ⅰ. Introduction Ⅱ. Methodology Ⅲ. Deep Learning Frameworks 논문의 목적 time series 데이터에 대해 RNN, LSTM, GRU, Transformer 4개의 모델들을 학습 및 평가하여 비교한다. 각 모델들의 강점과 약점을 평가한다. w, k의 영향력을 정확도 측면에서 이해해본다. Ⅰ. Introduction Time Series Forecasting (TSF)는 과거의 observations로부터 미래 시점의 예측 변수 분포를 예측하는 문제이다. traditional models linear : ARMA (stationary일 경우), ARIMA (non-stationary일 경우 차분을 해서 데이터가 정상성을 가질 수 있게) non-linear..
RNN의 학습, BPTT (Back Propagation Through Time) 먼저 loss 함수를 구체적으로 기술하자면, softmax와 CrossEntropyLoss 를 사용하는 Classification 모델이라면, 가중치 Wyh는 전시간에 공유되므로, Wyh를 기반으로 미분가능 마찬가지로 Lt+1dms ht+1과 전시간에 공유되는 Whh를 기반으로 다음과 같이 표현할 수 있음 이를 ht까지 확장하면, 다음과 같이 표현할 수 있음 (ht+1 계산에 ht가 사용되므로 다음과 같이 미분 가능) -> 체인룰임 예를 들어, 이렇게 표현할 수 있음. 따라서, Lt+1은 다음과 같이 표현할 수 있음 즉, 각 시점에서 발생한 hidden state까지의 미분값을 모두 합친 것 hidden state는 tan..
아래 내용은 인프런 [처음하는 딥러닝과 파이토치(Pytorch) 부트캠프] 강의를 듣고 공부한 내용입니다. RNN Recurrent Neural Network, 순환 신경망 이라고함 입력과 출력을 시퀀스 단위로 처리하는 시퀀스(Sequence) 모델 시퀀스(Sequence)란 연관된 연속 데이터를 의미하며, 시계열 데이터 등 순서를 가지는 데이터(그 전의 데이터를 가지고 예측해야하니까 시간축이 중요함) 에 적합한 신경망 모델 ( CNN과 마찬가지로 DNN으로도 시계열 데이터 분석 가능하지만 더 성능이 좋음) 번역기의 입력은 단어가 순서를 띄고 나열된 문장 시퀀스이며, 출력도 번역된 단어가 순서를 띄고 나열된 번역 문장 시퀀스임 가장 기본적인 시퀀스 모델이며, 최근에는 RNN을 기반으로 개선된 LSTM과 ..