본문 바로가기

인공지능 (강화학습)/강화학습6

[1] 강화학습 기본 개념 정리 출처: David silver 교수님 자료. 내용 정리 : 교수님 수업 기반에 의한 정리 기타 팁 : 개념 그냥 이해안되도 암기부터 하고나면 이해되긴하더라... 머신러닝에 대해 큰 그림을 그려보면 아래[fig1]와 같을것이다. [fig2]에서 Agent, Environment 에 대해 설명을 해보겠다. Agent는 기본적으로 observation(t), reward(t) 를 받아 action(t)을 수행한다고 생각하면 된다. Environment는 agent의 행동에 대한 action(t)을 받을것이고 변한 다음 observation(t+1), 변한 다음 reward(t+1) 을 받게될것이다. History and State [fig3] History(H)란 말그대로 observation,action,r.. 2024. 3. 20.
[5] 강화학습 Q-Network 출처(기반으로 작성되었습니다): https://www.youtube.com/watch?v=w9GwqPx7LW8 1. 앞에서 배운 Q-Table 복습 2. Q-tabel 의 문제점 및 해결법 3. Q-Network = Q table을 Neural network 로 구현한것 network(Neural network) 는 입,출력이 조절가능한 네트워크임으로, 입력을 state만, 출력을 action으로 하여 설계할 것이다. 4. Q-Network 결론 5. Q-Network Training 과정 6. Q-Network 수학적 표기법 7. Q-Network Algorithm 8. Stochastic 수식을 사용하지 않는 이유. 잘 생각을 해보면 앞장에서 Q 업데이트시 Stochastic 수식에 대해서 배웠는데,.. 2023. 2. 15.
[4] 강화학습 Windy Frozen Lake Nondeterministic world! 출처 및 참고: https://www.youtube.com/watch?v=6KSf-j4LL-c&ab_channel=SungKim 1. Nondeterminisitc (Stochastic) 의미: 일정하지않다, 랜덤으로 실행되는.. 그림1 설명: 방향 설정을 하더래도 어느 방향으로 가는지가 일정하지 않은것이다. 그림2 설명: Deterministic 의 경우 알맞은 명령어에 따라 알맞게 agent 가 이동한다. 반면 Stochastic의 경우 명령어에 따라 알맞게 agent가 이동하지 않는다. 2. 앞장의 수식에서 문제점 3.해결법 4. Q-learning algorithm 5.실습 (slippery=True) 이번 장에서 수정된 식으로 하여 코드를 수정하였다.(그림3 참고) 6. 실습 코드 import .. 2023. 2. 7.
[3] 강화학습 Exploit&Exploration and discounted future reward 출처 및 참고: https://www.youtube.com/watch?v=MQ-3QScrFSI&ab_channel=SungKim (기반으로 작성된 글입니다) 2장에서의 배운내용. 의미 : '현재의 Q값은 실행해서 얻어지는 reward+그다음 단계에서 얻어지는 가장큰 reward' 이다. 1. 기존의 문제점: [2장]에서 Dummy Q learning 에 대해 배웠었는데 문제점이 존재한다. 정책(파이 옵티멀)에 의해 Q 값이 최대 가 되는 a(action)를 수행하며 나가는데 이것이 진짜 최적의 경로가 맞냐는 문제가 발생한다. (계속 동일한 경로로만 가게됨) 2. 해결법: 이러한 비효율적인 동일한 경로로 가는것을 방지하기 위해 익숙한곳(Exploit) 과 새로운곳(Exploration) 을 가본다. 3. .. 2023. 2. 4.
[2]강화학습 Dummy Q Learning 출처:https://www.youtube.com/watch?v=Vd-gmo-qO5E&ab_channel=SungKim (기반으로 작성된 글입니다) 1. Q의 역할: 2. MaxQ , π*(s) 란? 3. Q(s,a)의미 4. Q Learning 예시 그림설명: 마지막 부부(초록색)에서의 reward는 1 이다. Q햇 (s,a) 식에 의해서, 빨간색박스의값= 1+max(0,0,0,0) = 1 이다. 그림설명: Q(s_13,a_right)의 값은 위와 같은 계산 과정에 따라 결정 된다. 그림설명: Optimal policy 를 따라 이동하며 agent가 성공함(초록색에 도착함), 1의 숫자만 따라서 감. 5. Q Learning 정리 6. 실습 6_1 코드 import gym import numpy as n.. 2023. 1. 20.
[1] 강화학습이란? 출처:https://www.youtube.com/watch?v=xgoO54qN4lY&ab_channel=SungKim (기반으로 작성된 글입니다.) 개념: 강화학습은 현재의 상태(State)에서 어떤 행동(Actrion)을 취하는 것이 최적인지를 학습하는 것이다. 행동을 취할 때마다 외부 환경(Environment) 에서 보상(Reward)이 주어지는데, 이러한 보상을 최대화 하는 방향으로 학습이 진행된다. 실습코드: import gym from gym.envs.registration import register import sys,tty,termios # 키보드에 입력을 받고 액션을 취함. class _Getch: def __call__(self): fd=sys.stdin.fileno() old_set.. 2023. 1. 17.