Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
Tags
- Multimodal Large Language Model
- DeepNet
- 파라미터 수 확인
- def train
- 가상환경
- cnn
- 특정 layer 동결
- 3C4P
- 모델 구조 변경
- Instruction dataset
- def validation
- mqtt
- Video Understanding
- 논문리뷰
- 논문 작성
- layer 추출
- 특정 layer 추출
- mPLUG-2
- 논문 작성 요령
- MLLM
- 모델 freeze
- 가중치 없이 모델 로드
- 모델 동결
- 파라미터 수
- 주식
- 강화학습
- Foundation Transformers
- pretrained model layer
- KOSMOS-2
- 주식 용어정리
Archives
- Today
- Total
시작은 미약하였으나 , 그 끝은 창대하리라
[논문리뷰:개념] DeepNet, Foundation Transformers 본문
논문링크: https://arxiv.org/abs/2203.00555
논문링크: https://arxiv.org/abs/2210.06423
Microsoft의 KOSMOS 논문을 이해하기 위해서는 DeepNet, Foundation Transformers 논문의 선행지식이 필요하다. 이를 위해 이번 번 리뷰에서는 필요한 각각의 논문에서 필요한 부분만 정리하려 한다.
결국 DeepNet이라는 논문에서 하고 싶은 말은 encoder, decoder 블록의 수에 알맞게 α 와 β를 설정해서 사용한다는것이다.
여기서
α는 residual 과정에서 Input 에 대한 scaling이고
β는 xavier_noraml 의 파라미터인 gain값이다.
Foundatino Transformers 라는 논문에서 하고 싶은 말은 encoder, decoder 블록의 수에 알맞게 gain(Γ) 을 설정 한다는것이며
Layernorm을 attention layer 전후에 추가 한다는 것이다.
'논문 리뷰' 카테고리의 다른 글
Comments