본문 바로가기
인공지능 (VLM, MLLM)/MLLM (Multimodal Large Language Model)

[Multimodal Large Language Model - Part 1] 서막

by 애플파ol 2024. 11. 8.

시작 이유 : Multimodal Large Language Model 에 대해 관심이 많았다. 하지만, LLM의 생태계는 많이 구축이 되어있으나(huggingface) MLLM에 대한 생태계는 구축이 많이 되어있지가 않았다. 물론 연구자라면 당연히 논문과 Github를 보면서 이해하는 것이 맞다. 하지만 나는 내가 배터리 관련하여 제출하던 논문이 수 많은 reject 이슈로 인해 연구하고 있던 MLLM이 상당히 중단이 되어왔다.

 

도저히 나는 이러한 상태를 보고도 못있겠다고 생각이 들고 어영부영 있다가 빠르게 발전해가는 기술에 의해 내 연구가 망가질 것이라는 생각이 비수에 꽂혔다, 파편처럼 흩어져있는 연구내용을 하나로 통합하여 진행하려 한다.  

 

이참에 티스토리에서 블로그 글을 써서 올리는 챌린지도 진행중이기에, 이 기회를 삼아서 하루에 몇가지 모듈 및 코드를 이해하며 완성해보려 한다. 

 

 

 

 

글의 목표 및 구성 :

1. MLLM 구현

2. Huggingface Trainer Customizing

3. Train

4. Evaluation