본문 바로가기

Data Analysis | AI/강화학습

[gym] Env-Intro: FrozenLake-v0

반응형

FrozenLake-v0

에이전트는 그리드 월드의 캐릭터의 움직임을 컨트롤 한다. 그리드의 몇몇 타일은 걸을수 있는 곳이며, 몇몇 타일은 물로 떨어진다. 추가적으로, 에이전트의 이동 방향은 불확정적으로 선택한 방향으로 부분적으로 움직인다. 에이전트는 Goal Tile을 찾으면 보상을 얻게된다.


그리드를 사용하는 표면은 다음과 같이 묘사된다:

SFFF       (S: starting point, safe)

FHFH       (F: frozen surface, safe)

FFFH       (H: hole, fall to your doom)

HFFG       (G: goal, where the frisbee is located)


State, Action, Reward, Done, Info이 정보

State:  0 ~ 15 사이의 값으로 에이전트가  해당하는 그리드 월드의 타일에 있음을 표현 

2

4

8

10 

11 

12

13 

14 

15 

Action: 0~3 사이의 값으로 [ Left, Down, Right, Up ]

Reward: Goal에 도착하면 1, Otherwise 0

Done: Goal, Hole에 도착하면 True, otherwise False

Info: 에이전트가 움직이는 방향으로 가지 못할 확률


Code


반응형

'Data Analysis | AI > 강화학습' 카테고리의 다른 글

[Lec2] Value Function과 Bellman Equation  (0) 2018.01.04
[Lec1] Markov Decision Process  (3) 2017.12.06
[Intro] Reinforcement Learning  (3) 2017.11.29