[강화학습] 마르코프 의사 결정 과정
이번 BITAmin 시계열 프로젝트에서 강화학습을 이용한 주식 실시간 트레이딩을 진행하게 되었는데, 프로젝트를 본격적으로 시작하기 전에 공부했던 강화학습의 개념에 대해 정리하고 가고자 한다. 강화학습은 마르코프 의사결정 과정에 학습에 개념을 넣은 것인데, 이번 포스팅에서는 강화학습 뿐만 아니라 많은 모델들의 기본이 되기도 하는 마르코프 의사 결정 과정에 대해 정리해보고자 한다. 먼저,강화학습이란,머신러닝의 한 종류로, 어떠한 환경에서 어떠한 행동을 했을 때 그것이 잘 된 행동인지 잘못된 행동인지를 나중에 판단하고 보상 (또는 벌칙)을 줌으로써 반복을 통해 스스로 학습하게 하는 분야이다. 그림을 보면 알 수 있듯이 강화학습의 두 가지 구성요소는 환경과 에이전트이다.에이전트 : 특정환경에서 행동을 결정..