Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
Tags
- 주식
- cnn
- MLLM
- def validation
- Instruction dataset
- DeepNet
- 모델 freeze
- 강화학습
- 논문 작성
- 논문 작성 요령
- Foundation Transformers
- layer 추출
- 가상환경
- 파라미터 수
- 논문리뷰
- pretrained model layer
- 가중치 없이 모델 로드
- mqtt
- 주식 용어정리
- Video Understanding
- 특정 layer 동결
- KOSMOS-2
- 모델 동결
- 특정 layer 추출
- 모델 구조 변경
- 파라미터 수 확인
- vsocde 익스텐션
- def train
- mPLUG-2
- Multimodal Large Language Model
Archives
- Today
- Total
목록Slippery=True (1)
시작은 미약하였으나 , 그 끝은 창대하리라
[4] 강화학습 Windy Frozen Lake Nondeterministic world!
출처 및 참고: https://www.youtube.com/watch?v=6KSf-j4LL-c&ab_channel=SungKim 1. Nondeterminisitc (Stochastic) 의미: 일정하지않다, 랜덤으로 실행되는.. 그림1 설명: 방향 설정을 하더래도 어느 방향으로 가는지가 일정하지 않은것이다. 그림2 설명: Deterministic 의 경우 알맞은 명령어에 따라 알맞게 agent 가 이동한다. 반면 Stochastic의 경우 명령어에 따라 알맞게 agent가 이동하지 않는다. 2. 앞장의 수식에서 문제점 3.해결법 4. Q-learning algorithm 5.실습 (slippery=True) 이번 장에서 수정된 식으로 하여 코드를 수정하였다.(그림3 참고) 6. 실습 코드 import ..
인공지능/강화학습
2023. 2. 7. 22:45