본문 바로가기

논문 리뷰22

[논문리뷰: 핵심개념만] DRAMA: Joint Risk Localization and Captioning in Driving 0. Abstract- 일본에서 자율주행한 17,785개의 데이터,- 영상에 대한 captioning- 특히 risk localization (위험지점 찾기), risk captioning (위험 설명)에 초점이 맞춰짐 1. Introduction- 각각의 video_clip은 차량이 브레이크를 밟은 시점을 기준으로 인식한 위험을 묘사함.- what, which, where, why, how 를  통합하여 caption을 만듬. Contribution- 중요객체와 관련된 위험에 대한 이유에 초점을 맞추어서 데이터 구성함.- Caption 은 개방형 (답변이 정해져 있지 않은것, 자연어로 묘사등등..), 폐쇄형 데이터(미리 정의된 답변 구성이 있는것)로 구성됨.- Risk lacalization에 맞춰진 .. 2025. 3. 4.
[논문리뷰: 핵심개념만] VLAAD: Vision and Language Assistant for Autonomous Driving - 나의 개인연구에 필요한 정보만 취득하기 위해 필요부분만 정리함. 2025. 1. 22.
[논문리뷰: 핵심개념만] DriveGPT4: Interpretable End-to-end Autonomous Driving via Large Language Model - 나의 개인연구에 필요한 정보만 취득하기 위해 필요부분만 정리함.       참고 번외 : LLaVA 논문 2025. 1. 10.
[논문리뷰 : 서베이]. A survey on multimodal large language models 논문 링크 : https://arxiv.org/abs/2306.13549 A Survey on Multimodal Large Language ModelsRecently, Multimodal Large Language Model (MLLM) represented by GPT-4V has been a new rising research hotspot, which uses powerful Large Language Models (LLMs) as a brain to perform multimodal tasks. The surprising emergent capabilities of MLLM, such as wrarxiv.org 2024. 12. 29.
[논문리뷰 : 서베이] Vision-Language Models for Vision Tasks: A Survey 논문링크 : https://ieeexplore.ieee.org/abstract/document/10445007 Vision-Language Models for Vision Tasks: A SurveyMost visual recognition studies rely heavily on crowd-labelled data in deep neural networks (DNNs) training, and they usually train a DNN for each single visual recognition task, leading to a laborious and time-consuming visual recognition paradigm. To addieeexplore.ieee.org 2024. 12. 16.
[논문리뷰: 핵심개념만] Vision GNN : An Image Is Worth Graph of Nodes - 나의 개인연구에 필요한 정보만 취득하기 위해 필요부분만 정리함. 2024. 8. 19.