본문 바로가기

mllm 모델구조1

[Multimodal Large Language Model - Part 3] 모델구조 ✓ MLLM 구조 MLLM이라는 것은 Multimodal Large Language Model의 약자이다.멀티모달 이라는 것은 단일 입력이 아닌 2개 이상의 입력이 들어갈때 표현하는 언어이다.Large Language Model 이라는 것은 대형언어모델 이라는 뜻이다.기본적으로 MLLM의 모델에서는 2가지의 입력이 들어간다. 바로 텍스트와 이미지.텍스트 - 토크나이징이 된상태로 모델의 입력으로 들어감. 즉, LLM이라고 그냥 생각하면 된다.이미지 - 다양한 비전모델을 보면 알겠지만, 이미지를 인코딩을 수행함(CLIP-ViT와 같이) Vision - encoder를 통과한 이미지는 Multimodal Projector 로 들어감.이유 : LLM의 입력에 들어가기 위해 Text입력의 Dimension 과 맞.. 2024. 11. 10.

이전 1 다음

티스토리툴바