Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
Tags
- def train
- 모델 구조 변경
- mqtt
- Instruction dataset
- 주식
- Foundation Transformers
- mPLUG-2
- Multimodal Large Language Model
- MLLM
- 모델 동결
- 논문 작성 요령
- 논문 작성
- cnn
- def validation
- 강화학습
- 가중치 없이 모델 로드
- layer 추출
- 논문리뷰
- 가상환경
- Video Understanding
- vsocde 익스텐션
- 특정 layer 동결
- 주식 용어정리
- DeepNet
- KOSMOS-2
- 모델 freeze
- 파라미터 수 확인
- 파라미터 수
- 특정 layer 추출
- pretrained model layer
Archives
- Today
- Total
목록random noise 추가 (1)
시작은 미약하였으나 , 그 끝은 창대하리라
[3] 강화학습 Exploit&Exploration and discounted future reward
출처 및 참고: https://www.youtube.com/watch?v=MQ-3QScrFSI&ab_channel=SungKim (기반으로 작성된 글입니다) 2장에서의 배운내용. 의미 : '현재의 Q값은 실행해서 얻어지는 reward+그다음 단계에서 얻어지는 가장큰 reward' 이다. 1. 기존의 문제점: [2장]에서 Dummy Q learning 에 대해 배웠었는데 문제점이 존재한다. 정책(파이 옵티멀)에 의해 Q 값이 최대 가 되는 a(action)를 수행하며 나가는데 이것이 진짜 최적의 경로가 맞냐는 문제가 발생한다. (계속 동일한 경로로만 가게됨) 2. 해결법: 이러한 비효율적인 동일한 경로로 가는것을 방지하기 위해 익숙한곳(Exploit) 과 새로운곳(Exploration) 을 가본다. 3. ..
인공지능/강화학습
2023. 2. 4. 00:38