본문 바로가기

Data Analysis | AI/강화학습

(4)

[Lec2] Value Function과 Bellman Equation 이 포스팅은 다음 자료들을 정리했음을 알려드립니다. 혹시 저작권 문제가 있으면 바로 삭제하도록 하겠습니다.강화학습 한글자료(PDF) : https://www.gitbook.com/book/dnddnjs/rl/details.파이썬과 케라스로 배우는 강화학습 : http://wikibook.co.kr/reinforcement-learning/ Reinforcement Learning: An introduction: http://www.incompleteideas.net/book/bookdraft2017nov5.pdf Value Function과 Bellman Equation가치함수(Value function)와 벨만 방정식(Bellman equation)은 강화학습에서 매우 중요한 수식이다. 우선 이들을 이..

[gym] Env-Intro: FrozenLake-v0 FrozenLake-v0 에이전트는 그리드 월드의 캐릭터의 움직임을 컨트롤 한다. 그리드의 몇몇 타일은 걸을수 있는 곳이며, 몇몇 타일은 물로 떨어진다. 추가적으로, 에이전트의 이동 방향은 불확정적으로 선택한 방향으로 부분적으로 움직인다. 에이전트는 Goal Tile을 찾으면 보상을 얻게된다. 그리드를 사용하는 표면은 다음과 같이 묘사된다:SFFF (S: starting point, safe) FHFH (F: frozen surface, safe) FFFH (H: hole, fall to your doom) HFFG (G: goal, where the frisbee is located) State, Action, Reward, Done, Info이 정보State: 0 ~ 15 사이의 값으로 에이전트가 해..

[Lec1] Markov Decision Process 이 포스팅은 다음 자료들을 정리했음을 알려드립니다. 혹시 저작권 문제가 있으면 바로 삭제하도록 하겠습니다. 강화학습 한글자료(PDF) : https://www.gitbook.com/book/dnddnjs/rl/details. 파이썬과 케라스로 배우는 강화학습 : http://wikibook.co.kr/reinforcement-learning/ Reinforcement Learning: An introduction: http://www.incompleteideas.net/book/bookdraft2017nov5.pdf 2. Markov Decision Process 순차적 행동 결정 문제를 수학적으로 정의한 것이 Markov Decision Process(이하 MDP)이다. MDP는 상태(State), 행..

[Intro] Reinforcement Learning 강화학습 스터디 정리 0. 학습 자료 및 일정 먼저 강화학습의 기본 지식을 쌓기 위해 한글로된 초급 자료를 사용하여 스터디하며 각 내용을 요약하며 포스팅 이후 심화된 원문 자료를 이용해 학습 자료 List 강화학습 한글자료(PDF) https://www.gitbook.com/book/dnddnjs/rl/details 파이썬과 케라스로 배우는 강화학습 http://wikibook.co.kr/reinforcement-learning/ 실습자료 https://medium.com/emergent-future 실습자료_번역본 http://ishuca.tistory.com/391 매주 PDF 한 챕터씩, 격주로 실습자료 1챕터씩 진행하고 각 주차별 핵심 내용만 정리하여 포스팅 1. Intorduction to Re..

이전 1 다음

티스토리툴바