MoonBug

고정 헤더 영역

글 제목

메뉴 레이어

MoonBug

메뉴 리스트

  • 홈
  • 태그
  • 방명록
  • 분류 전체보기
    • Portfolio
      • Toy Project
    • Trip
    • Cooking
    • Game
    • Diary
      • 잡생각
    • C++
      • Baekjoon
      • Programmers
      • 개념공부
      • STL
    • Study
      • Computer Network
      • 강화학습
      • Algorithm
      • OS

검색 레이어

MoonBug

검색 영역

컨텐츠 검색

RL

  • 강화학습 필기노트 - 3 Markov Decision Process (MDP) && Policy

    2023.01.10 by J2on

  • 강화학습 필기노트 - 2 Q-learning

    2023.01.10 by J2on

강화학습 필기노트 - 3 Markov Decision Process (MDP) && Policy

https://www.youtube.com/watch?v=DbbcaspZATg&list=PL_iJu012NOxehE8fdF9me4TLfbdv3ZW8g&index=3 본 필기노트는 위 영상을 바탕으로 합니다. 항상 감사합니다. 앞서 필기노트 1에서 State가 Markov하다는 것의 의미를 배웠습니다. 알아두면 좋아요. 그래서 state와 action들이 Chain을 통해 연결되어 있는 형태를 Markov Chain이라 합니다. Markov Decision Process (MDP) t번째 state에서 취할 수 있는 action은 해당 State만으로 생성이 가능하다. action에 대한 조건부확률로 나타내면 S1이 주어졌을때, a1의 확률은 S0나 A0에 영향을 받지 않는다. S_(t+1)을 생성하기 위..

Study/강화학습 2023. 1. 10. 17:11

강화학습 필기노트 - 2 Q-learning

https://www.youtube.com/watch?v=3Ch14GDY5Y8&list=PL_iJu012NOxehE8fdF9me4TLfbdv3ZW8g&index=2 본 필기노트는 위 영상을 바탕으로 합니다. 위 영상에서는 강화학습의 Q-learning 알고리즘을 '맛집 찾기' 과정에 비유하여 설명합니다. Greedy Action 각각의 칸을 state로 보고 칸을 이동하는 행위를 action으로 볼 때, 위 그림처럼 표현할 수 있다. 각 state에서 취할 수 있는 action에 따라 Q값을 가진다. 이 Q값이 큰 action을 따라 움직이는 것이 Greedy Action이다. 모든 action의 최초 Q값은 0으로 초기화된다. 이때, 첫번째 Episode 시행에서는 Q값이 모두 0이기 때문에, 랜덤한 ..

Study/강화학습 2023. 1. 10. 01:46

추가 정보

인기글

최신글

페이징

이전
1
다음
TISTORY
MoonBug © Magazine Lab
페이스북 트위터 인스타그램 유투브 메일

티스토리툴바