본문 바로가기

전체 글157

[CNN-Pytorch, Finetuning] 커스텀 데이터 활용 이미지 분류 예제 코드 설명 소개 : 사람의 action 분류를 위해 Dataset을 통해 간단하게 코드를 작성하였다. 사람의 관절값을 추출하여 Human action recognition을 할 수 있지만, 여기서는 사람의 action자체를 이미지 분류 모델에 넣어서 분류 모델을 만듬. 코드 개요 : 모델을 만들기보다는 Finefuning을 수행함.  , Early stopping 은 수행하지 않음. 난이도 : ★☆☆☆☆ 주의:  Kaggle Dataset에서 잘못된 파일명(?)이 있음, 그부분을 삭제해주고 시작해야함.  ex)파일명뒤에 (1) 이렇게 붙어있음. Dataset 출처 : https://www.kaggle.com/datasets/meetnagadia/human-action-recognition-har-dataset Hu.. 2024. 6. 23.
[논문리뷰: 핵심개념만] Pure Transformers are Powerful Graph Learners - 나의 개인연구에 필요한 정보만 취득하기 위해 필요부분만 정리함. 2024. 6. 23.
[논문리뷰: 핵심개념만] Unified vision-language pre-training for image captioning and vqa - 나의 개인연구에 필요한 정보만 취득하기 위해 필요부분만 정리함. 2024. 6. 3.
[import os] 파일 호출, 삭제, 생성 명령어. 1. 파일 경로 join을 활용한 호출.import ostest_path = './dataset/video'file_name = 'basketball_1'path= os.path.join(test_path, 'YouTubeClips', file_name)  2. 특정 path 삭제.     -주의사항 : shutil.rmtree 는 path 하위 디렉토리의 모든것을 삭제함으로 주의 해야함.import osif os.path.exists(path): shutil.rmtree(path)  3. 폴더 생성.    - os.makedirs 는 하위 디렉토리의 폴더까지 한번에 생성할 수 있음.       ex) mkdir의(폴더 생성 명령어) 경우 path= './a/b' 를 하면 a폴더가 없다면 b를 생성.. 2024. 5. 26.
[Image Captioning] 이미지 캡셔닝 튜토리얼 들어가기전에..1. 이미지 캡셔닝에 대한 원리는 알고 있다는 전재하에 서술함.2. 모델은 Encoder는 Resnet50, Decoder는 GRU를 사용함.3. Flickr8k 데이터셋 사용함. (Download:  https://www.kaggle.com/datasets/adityajn105/flickr8k)4. 이미지 캡셔닝 과정은 크게 2가지 과정으로 구성된다.     1).  전처리 과정 - text (caption) 전처리     2). 모델 설계 및 학습.  Step1.  전처리 과정 - 토큰화 (단어 토큰화 적용)1. 필요 모듈 importimport pandas as pdimport torchimport torch.nn as nnfrom torch import optimfrom torch... 2024. 5. 19.
[VScode] 익스텐션 추천 1. Bluloco light    - 밝은색 테마, 내가 찾아본것중에는 가장 깔끔하고 좋음  2. One Dark Theme    - 어두운 테마, 내가 찾아본것중에는 가장 깔끔하고 좋음 3. Error lens    - 코드 작성할 때 잘못된 부분에 대해서 빨간색으로 명시해줌. 4. Excel viwer    - 데이터를 확인하거나 처리할때 엑셀파일을 열어야 하는데 vscode에서는 행, 열이 맞게 안열림( 데이터 길이에 따라..)       하지만 Excel viwer 익스텐션은 엑셀파일처럼(행,열이 정렬된 상태로) Vscode에서 열어줌. 5. github copilot    - 코드 작성하는 시간을 확실하게 줄여줌.        -> 장점 : 단순 작업을 코드로 작성할때던, 함수가 햇갈리거나 등.. 2024. 5. 15.