강화학습 필기노트 - 2 Q-learning
https://www.youtube.com/watch?v=3Ch14GDY5Y8&list=PL_iJu012NOxehE8fdF9me4TLfbdv3ZW8g&index=2 본 필기노트는 위 영상을 바탕으로 합니다. 위 영상에서는 강화학습의 Q-learning 알고리즘을 '맛집 찾기' 과정에 비유하여 설명합니다. Greedy Action 각각의 칸을 state로 보고 칸을 이동하는 행위를 action으로 볼 때, 위 그림처럼 표현할 수 있다. 각 state에서 취할 수 있는 action에 따라 Q값을 가진다. 이 Q값이 큰 action을 따라 움직이는 것이 Greedy Action이다. 모든 action의 최초 Q값은 0으로 초기화된다. 이때, 첫번째 Episode 시행에서는 Q값이 모두 0이기 때문에, 랜덤한 ..
Study/강화학습
2023. 1. 10. 01:46