Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | |||||
3 | 4 | 5 | 6 | 7 | 8 | 9 |
10 | 11 | 12 | 13 | 14 | 15 | 16 |
17 | 18 | 19 | 20 | 21 | 22 | 23 |
24 | 25 | 26 | 27 | 28 | 29 | 30 |
31 |
Tags
- def train
- DeepNet
- 특정 layer 추출
- 가상환경
- 주식 용어정리
- 논문 작성
- mqtt
- mPLUG-2
- 모델 구조 변경
- KOSMOS-2
- 파라미터 수 확인
- 강화학습
- 특정 layer 동결
- Foundation Transformers
- 가중치 없이 모델 로드
- cnn
- Instruction dataset
- Multimodal Large Language Model
- 논문 작성 요령
- 주식
- 모델 동결
- 모델 freeze
- layer 추출
- def validation
- pretrained model layer
- Video Understanding
- vsocde 익스텐션
- 논문리뷰
- 파라미터 수
- MLLM
Archives
- Today
- Total
목록2024/03/20 (1)
시작은 미약하였으나 , 그 끝은 창대하리라
[1] 강화학습 기본 개념 정리
출처: David silver 교수님 자료. 내용 정리 : 교수님 수업 기반에 의한 정리 기타 팁 : 개념 그냥 이해안되도 암기부터 하고나면 이해되긴하더라... 머신러닝에 대해 큰 그림을 그려보면 아래[fig1]와 같을것이다. [fig2]에서 Agent, Environment 에 대해 설명을 해보겠다. Agent는 기본적으로 observation(t), reward(t) 를 받아 action(t)을 수행한다고 생각하면 된다. Environment는 agent의 행동에 대한 action(t)을 받을것이고 변한 다음 observation(t+1), 변한 다음 reward(t+1) 을 받게될것이다. History and State [fig3] History(H)란 말그대로 observation,action,r..
인공지능/강화학습
2024. 3. 20. 19:05