상세 컨텐츠

본문 제목

강화학습 필기노트 - 3 Markov Decision Process (MDP) && Policy

Study/강화학습

by J2on 2023. 1. 10. 17:11

본문

https://www.youtube.com/watch?v=DbbcaspZATg&list=PL_iJu012NOxehE8fdF9me4TLfbdv3ZW8g&index=3 

본 필기노트는 위 영상을 바탕으로 합니다. 항상 감사합니다.

 

앞서 필기노트 1에서 State가 Markov하다는 것의 의미를 배웠습니다. 알아두면 좋아요. 

 

그래서 state와 action들이 Chain을 통해 연결되어 있는 형태를 Markov Chain이라 합니다. 

 

출처 : 상단 영상 캡쳐

Markov Decision Process (MDP)

 t번째 state에서 취할 수 있는 action은 해당 State만으로 생성이 가능하다. 

 

 

action에 대한 조건부확률로 나타내면 S1이 주어졌을때,

a1의 확률은  S0나 A0에 영향을 받지 않는다.

 

 

  S_(t+1)을 생성하기 위한 정보를 S_(t)가 다 가지고 있기 때문에 그 이전의 S_(t-1)이라던가 S_(t-2)라던가는 필요 없다.

 

 state 생성 역시 다르지 않다.

2번째 state를 만들때, S1과 a1만을 필요로 하며,

그 이전 S0나 a0의 영향을 받지 않는다.

 

Policy

역시 필기노트 1에서 공부했던 부분 중 하나.

 

Policy는 State가 주어진 상황에서 어떠한 action을 취하느냐는 것.

이러한 확률분포들을 Policy라고 한다. 

 

 

그래서 강화학습의 Goal은 Reward의 maximize.

 

아니, Return의 maximaize.

 

그것도 아니, Expected Return의 Maximize가 강화학습의 Goal, 목표이다.

 

그래서 t번째 Episode에서 Expected Return 값을 G_(t)라 할 때,

 

Return값 G_(t)는 R_(t) + γR_(t+1) + (γ^2)R_(t+2) + ... 로 정의할 수 있다.

 

 * γ(감마)를 곱해주는 것은 Discount factor를 사용하는 것)

 

 

결국 다시 정리하자면, 

 

강화학습의 목표는 maximize한 Return값을 찾는 것이고, 그런 Return값을 만들어내는 Policy를 찾는 것이다.

 

라고 하네요.

 

늘 그렇지만 틀린 내용이 있을 수 있습니다. 있다면 꼭 알려주세요!

관련글 더보기

댓글 영역