일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- Video Understanding
- KOSMOS-2
- layer 추출
- 가중치 없이 모델 로드
- 모델 구조 변경
- Foundation Transformers
- Multimodal Large Language Model
- vsocde 익스텐션
- 논문 작성
- 모델 동결
- 모델 freeze
- cnn
- 주식 용어정리
- DeepNet
- 논문리뷰
- mqtt
- 가상환경
- def train
- 특정 layer 동결
- 강화학습
- MLLM
- def validation
- 특정 layer 추출
- 파라미터 수 확인
- pretrained model layer
- 논문 작성 요령
- 파라미터 수
- Instruction dataset
- 주식
- mPLUG-2
- Today
- Total
목록전체 글 (116)
시작은 미약하였으나 , 그 끝은 창대하리라
➢ Loss, Accuracy 에 따라 코드가 일부 상이함으로 주의. ✓ Pytorch 는 Tensorflow 처럼 Early stopping API 를 제공하지 않는다. 결국 early stopping을 위해 Pytorch 에서는 직접 구현을 해야 함. ✓ train.py (학습코드) 에 직접 추가할수도 있지만, 필자는 가독성을 위해서 class로 만들어서 train.py에 호출해서 사용한다. ✓ 이해를 위한 선행 지식 (예시 참고) : 'def __init__ ' 기능 : class 인스턴스를 생성 할 때, 관련된 데이터를 초기화(initialization) 하는 함수 'def __call__ ' 기능 : 해당 인스턴스를 함수처럼 호출 가능. # 이해를 위한 예시 코드 # 클래스 생성 class Ex..
논문 링크 : https://www.mdpi.com/2072-4292/15/8/2139 CapERA: Captioning Events in Aerial Videos In this paper, we introduce the CapERA dataset, which upgrades the Event Recognition in Aerial Videos (ERA) dataset to aerial video captioning. The newly proposed dataset aims to advance visual–language-understanding tasks for UAV videos by providing eac www.mdpi.com Published : 2023.04.18 (MDPI- Remote S..
➢ Pytorch 에서 dataset을 쉽게 다룰 수 있도록 모듈을 제공하고 있다. 아래와 같이 두가지 Step으로 구성 된다. ❏ (Step1) CustomDataset 뼈대 - 데이터셋 상속 from torch.utils.data import Dataset # 데이터셋 상속 class CustomDataset_name(Dataset): #데이터 전처리 과정 작성. def __init__(self): pass # 데이터의 길이 (총 샘플수) 작성. def __len__(self): pass # 전처리 된 데이터셋을 인덱스(idx)에 맞게, Pytorch Tensor 형태로 반환 함. def __getitem__(self,idx): pass ❏ (Step2) DataLoader 뼈대 중요 파라미터 설명:..
❏ 목적: 제스쳐를 통한 제어 (맨 아래 github 들어가면 모든 코드 확인가능함) ❏ Mediapipe Gesture Recognition 간단설명 이미지로 손을 학습하나 생각할 수 있으나 그게아니였다.. 손에 대한 관절 포인트(= landmark) 21개를 이미 다 학습을 시켜놓아서 손을 보면 실시간으로 손의 좌표(x,y,z) 따주는것임. where, x는 가로, y 세로, z 는 카메라로 부터의 거리. 학습에 사용되는 feature = landmark data[21 *3] + landmark visibility[21]+ 손가락 각도 데이터[15개] =총 99개 ❏ 모델 : CNN- LSTM 데이터를 수집을 많이 한것도 아니고 모델이 깊은것도 아닌데. 생각보다 잘되더라..( 카메라 각도와 손의 각도..
논문링크: https://arxiv.org/abs/2206.06488 Multimodal Learning with Transformers: A Survey Transformer is a promising neural network learner, and has achieved great success in various machine learning tasks. Thanks to the recent prevalence of multimodal applications and big data, Transformer-based multimodal learning has become a hot topic in AI arxiv.org ❏ 글 목차 (논문 목차 아님, 중요하고 필요로 하는 정보만 읽고 정리함) : ..
class SwinTransformer(nn.Module): r""" Swin Transformer A PyTorch impl of : `Swin Transformer: Hierarchical Vision Transformer using Shifted Windows` - https://arxiv.org/pdf/2103.14030 Args: img_size (int | tuple(int)): Input image size. Default 224 patch_size (int | tuple(int)): Patch size. Default: 4 in_chans (int): Number of input image channels. Default: 3 num_classes (int): Number of classe..
파이토치를 활용해서 모델을 만들면 항상 Super(class명, self).__init__() = Super().__init__() 를 해주었는데 어떤 기능을 하는건지 확인을 해보았다. (뒤의 두개는 같은 기능임) import torch.nn as nn # Neural Network, activation function 모듈의 기본 클래스 import torch class model_name(nn.Moudle): def__init__(self): super(model_name,self).__init__() self.layer_1=nn.Linear( in_features=32, out_features=16 ) def forward(self,x): x=self.layer_1(x) return x ➢ 부모 클..
논문 링크 : https://openaccess.thecvf.com/content/ICCV2021/html/Liu_Swin_Transformer_Hierarchical_Vision_Transformer_Using_Shifted_Windows_ICCV_2021_paper ICCV 2021 Open Access Repository Swin Transformer: Hierarchical Vision Transformer Using Shifted Windows Ze Liu, Yutong Lin, Yue Cao, Han Hu, Yixuan Wei, Zheng Zhang, Stephen Lin, Baining Guo; Proceedings of the IEEE/CVF International Conference o..