강화학습 필기노트 - 4 상태 가치 함수 V, 행동 가치 함수 Q, 벨만 방정식 Bellman equation
https://www.youtube.com/watch?v=7MdQ-UAhsxA&list=PL_iJu012NOxehE8fdF9me4TLfbdv3ZW8g&index=4 본 필기노트는 위 영상을 바탕으로 합니다. 다시 강화학습은 Expacted Return을 Maximize하는 것이라 언급. State value function (상태 가치 함수, V) 지금부터 기대되는 return. (지금 Stae 부터) 지금 state에 대한 value, 가치를 매겨주는 것 일반적으로 x에 대한 기댓값은 왼쪽과 같이 나타낸다. 말로 풀자면, x의 결괏값 f(x)의 기댓값은 f(x)와 x가 일어난 확률 p(x)의 곱을 적분한 것과 같다. 이를 바탕으로 현재 state S_(t)에 대하여 수식으로 나타낸다면, 여기서의 G_(..
Study/강화학습
2023. 1. 12. 17:01