'RL' 태그의 글 목록

RL

강화학습 필기노트 - 3 Markov Decision Process (MDP) && Policy

https://www.youtube.com/watch?v=DbbcaspZATg&list=PL_iJu012NOxehE8fdF9me4TLfbdv3ZW8g&index=3 본 필기노트는 위 영상을 바탕으로 합니다. 항상 감사합니다. 앞서 필기노트 1에서 State가 Markov하다는 것의 의미를 배웠습니다. 알아두면 좋아요. 그래서 state와 action들이 Chain을 통해 연결되어 있는 형태를 Markov Chain이라 합니다. Markov Decision Process (MDP) t번째 state에서 취할 수 있는 action은 해당 State만으로 생성이 가능하다. action에 대한 조건부확률로 나타내면 S1이 주어졌을때, a1의 확률은 S0나 A0에 영향을 받지 않는다. S_(t+1)을 생성하기 위..

Study/강화학습 2023. 1. 10. 17:11

강화학습 필기노트 - 2 Q-learning

https://www.youtube.com/watch?v=3Ch14GDY5Y8&list=PL_iJu012NOxehE8fdF9me4TLfbdv3ZW8g&index=2 본 필기노트는 위 영상을 바탕으로 합니다. 위 영상에서는 강화학습의 Q-learning 알고리즘을 '맛집 찾기' 과정에 비유하여 설명합니다. Greedy Action 각각의 칸을 state로 보고 칸을 이동하는 행위를 action으로 볼 때, 위 그림처럼 표현할 수 있다. 각 state에서 취할 수 있는 action에 따라 Q값을 가진다. 이 Q값이 큰 action을 따라 움직이는 것이 Greedy Action이다. 모든 action의 최초 Q값은 0으로 초기화된다. 이때, 첫번째 Episode 시행에서는 Q값이 모두 0이기 때문에, 랜덤한 ..

Study/강화학습 2023. 1. 10. 01:46

MoonBug

고정 헤더 영역

메뉴 레이어

메뉴 리스트

검색 레이어

검색 영역

RL

추가 정보

인기글

최신글

페이징

티스토리툴바