순서가 있는 데이터를 위한 딥러닝 기본 - RNN BPTT
RNN의 학습, BPTT (Back Propagation Through Time) 먼저 loss 함수를 구체적으로 기술하자면, softmax와 CrossEntropyLoss 를 사용하는 Classification 모델이라면, 가중치 Wyh는 전시간에 공유되므로, Wyh를 기반으로 미분가능 마찬가지로 Lt+1dms ht+1과 전시간에 공유되는 Whh를 기반으로 다음과 같이 표현할 수 있음 이를 ht까지 확장하면, 다음과 같이 표현할 수 있음 (ht+1 계산에 ht가 사용되므로 다음과 같이 미분 가능) -> 체인룰임 예를 들어, 이렇게 표현할 수 있음. 따라서, Lt+1은 다음과 같이 표현할 수 있음 즉, 각 시점에서 발생한 hidden state까지의 미분값을 모두 합친 것 hidden state는 tan..