MoonBug

고정 헤더 영역

글 제목

메뉴 레이어

MoonBug

메뉴 리스트

  • 홈
  • 태그
  • 방명록
  • 분류 전체보기
    • Portfolio
      • Toy Project
      • 쥐돌이볼링
    • Trip
    • Cooking
    • Game
    • Diary
      • 잡생각
    • C++
      • Baekjoon
      • Programmers
      • 개념공부
      • STL
    • Study
      • Linux
      • Graphics
      • UNREAL
      • Computer Network
      • 강화학습
      • Algorithm
      • OS

검색 레이어

MoonBug

검색 영역

컨텐츠 검색

Study/강화학습

  • 강화학습 필기노트 - 4 상태 가치 함수 V, 행동 가치 함수 Q, 벨만 방정식 Bellman equation

    2023.01.12 by J2on

  • 강화학습 필기노트 - 3 Markov Decision Process (MDP) && Policy

    2023.01.10 by J2on

  • 강화학습 필기노트 - 2 Q-learning

    2023.01.10 by J2on

  • 강화학습 필기노트 - 1 Introduction

    2023.01.01 by J2on

강화학습 필기노트 - 4 상태 가치 함수 V, 행동 가치 함수 Q, 벨만 방정식 Bellman equation

https://www.youtube.com/watch?v=7MdQ-UAhsxA&list=PL_iJu012NOxehE8fdF9me4TLfbdv3ZW8g&index=4 본 필기노트는 위 영상을 바탕으로 합니다. 다시 강화학습은 Expacted Return을 Maximize하는 것이라 언급. State value function (상태 가치 함수, V) 지금부터 기대되는 return. (지금 Stae 부터) 지금 state에 대한 value, 가치를 매겨주는 것 일반적으로 x에 대한 기댓값은 왼쪽과 같이 나타낸다. 말로 풀자면, x의 결괏값 f(x)의 기댓값은 f(x)와 x가 일어난 확률 p(x)의 곱을 적분한 것과 같다. 이를 바탕으로 현재 state S_(t)에 대하여 수식으로 나타낸다면, 여기서의 G_(..

Study/강화학습 2023. 1. 12. 17:01

강화학습 필기노트 - 3 Markov Decision Process (MDP) && Policy

https://www.youtube.com/watch?v=DbbcaspZATg&list=PL_iJu012NOxehE8fdF9me4TLfbdv3ZW8g&index=3 본 필기노트는 위 영상을 바탕으로 합니다. 항상 감사합니다. 앞서 필기노트 1에서 State가 Markov하다는 것의 의미를 배웠습니다. 알아두면 좋아요. 그래서 state와 action들이 Chain을 통해 연결되어 있는 형태를 Markov Chain이라 합니다. Markov Decision Process (MDP) t번째 state에서 취할 수 있는 action은 해당 State만으로 생성이 가능하다. action에 대한 조건부확률로 나타내면 S1이 주어졌을때, a1의 확률은 S0나 A0에 영향을 받지 않는다. S_(t+1)을 생성하기 위..

Study/강화학습 2023. 1. 10. 17:11

강화학습 필기노트 - 2 Q-learning

https://www.youtube.com/watch?v=3Ch14GDY5Y8&list=PL_iJu012NOxehE8fdF9me4TLfbdv3ZW8g&index=2 본 필기노트는 위 영상을 바탕으로 합니다. 위 영상에서는 강화학습의 Q-learning 알고리즘을 '맛집 찾기' 과정에 비유하여 설명합니다. Greedy Action 각각의 칸을 state로 보고 칸을 이동하는 행위를 action으로 볼 때, 위 그림처럼 표현할 수 있다. 각 state에서 취할 수 있는 action에 따라 Q값을 가진다. 이 Q값이 큰 action을 따라 움직이는 것이 Greedy Action이다. 모든 action의 최초 Q값은 0으로 초기화된다. 이때, 첫번째 Episode 시행에서는 Q값이 모두 0이기 때문에, 랜덤한 ..

Study/강화학습 2023. 1. 10. 01:46

강화학습 필기노트 - 1 Introduction

https://www.youtube.com/watch?v=wYgyiCEkwC8&list=PLpRS2w0xWHTcTZyyX8LMmtbcMXpd3s4TU 본 필기노트는 위 영상을 바탕으로 합니다. 머신러닝은 3가지 종류로 나뉜다. 1. Unsupervised Learning - 비지도 학습 2. Supervised Learning - 지도 학습 3. Reinforcement Learning - 강화학습 ■ 강화학습이 기존의 다른 머신러닝 방법론과 차이를 가지는 점 ● Supervisor가 존재하지 않으며, reward signal만이 존재함. - Supervised Learning과의 차이점 정답을 알려주지 않고 reward signal만으로 좋은 방향을 찾아나간다. 어떤 방향, 어떤 방법을 사용해야 rew..

Study/강화학습 2023. 1. 1. 22:24

추가 정보

인기글

최신글

페이징

이전
1
다음
TISTORY
MoonBug © Magazine Lab
페이스북 트위터 인스타그램 유투브 메일

티스토리툴바