강화학습 필기노트 - 3 Markov Decision Process (MDP) && Policy
https://www.youtube.com/watch?v=DbbcaspZATg&list=PL_iJu012NOxehE8fdF9me4TLfbdv3ZW8g&index=3 본 필기노트는 위 영상을 바탕으로 합니다. 항상 감사합니다. 앞서 필기노트 1에서 State가 Markov하다는 것의 의미를 배웠습니다. 알아두면 좋아요. 그래서 state와 action들이 Chain을 통해 연결되어 있는 형태를 Markov Chain이라 합니다. Markov Decision Process (MDP) t번째 state에서 취할 수 있는 action은 해당 State만으로 생성이 가능하다. action에 대한 조건부확률로 나타내면 S1이 주어졌을때, a1의 확률은 S0나 A0에 영향을 받지 않는다. S_(t+1)을 생성하기 위..
Study/강화학습
2023. 1. 10. 17:11