논문리뷰
-
InterVL -논문 리뷰논문리뷰 2024. 4. 11. 22:47
Intern VL 의 가장 큰 contribution - Vision Encoder를 충분히 키우면, 성능이 올라간다. As-is : 0.3B CLIP .. To-be : 6B Vision Encoder (Intern Vit 6B) InterVL 의 기본 구조 InterViT (VisionEncoder) + QLLAMA (Language middleware) + LLM (Language model) InternVit : 크기가 커진 비젼인코더 QLLAMA : LLAMA에 Vision Encoder의 임베딩벡터를 96개의 쿼리로 cross attention하는 레이어 1B를 포함한 모델 (Qformer의 42배) LLM : 기존 오픈된 모든 llm 사용 가능 (여기선 Vicuna 13B) Swiss arm..
-
Sequence Parallelism: Long Sequence Training fromSystem Perspective논문리뷰 2022. 10. 10. 16:41
AI 모델이 거대화되면서, GPU parallel 학습에 대한 연구가 많이 진행되고 있다. 그중에서, sequence parallel 방법에 대한 논문을 리뷰하고자 한다. 1. Background Transformer 기반 모델을 사용해본 사람은 모두 알것이다. 긴 문장, 문서가 있으면, max_vocab을 정해서 짜른 후 input으로 사용한다. 왜 일부를 잘라서 사용할까? 당연하게도 메모리 문제이다. data batch, layer, parameter를 쪼개서 multi-GPU로 올려 연산하고 있는 상황에서 ( data parallel, pipe parallel, tensor parallel) Input(sequence)도 쪼개서 학습시킬수 없을까? 2. Method (Ring self-Attenti..
-
Style Gan 리뷰논문리뷰 2021. 2. 13. 10:34
Style GAN A Style-Based Generator Architecture for Generative Adversarial Networks Network - intermediate latent vector 기본 genterator : 생성된 latent vector를 바로 GAN generator에 사용하게되면, train dataset에 entangle하게됨. style gan : 반면 latent vector를 8개의 FC layer에 통과시킨 intermediate latent vector를 사용하므로써, train dataset에 disentangle함 - style vector 본 논문에서는 intermediate vector를 affine transform 통해 style vector..
-
Semi-supervised learning - Fix match논문리뷰 2020. 8. 2. 23:18
요즘 Vision 딥러닝에서 핫하게 불어오는 트렌드 중 하나가 Unsupervised learning! Unsupervised learning 이란 간단히 이야기해서 이미지에대한 label값(정확한 타겟값)이 없는 상태에서 이미지를 학습시키는 모델이다. Unsupervised learning에서는 KNN 과 같은 클러스터링이 가장 대표적인데, 딥러닝에서도 사용된다. 예를들어 Self-supervised learning 같은 것이 있다. (이건 따로 포스팅을 할.. 예정..) 이런 모델들은 label을 이용해 학습하는 것이 아닌, 이미지를 이해하기 위한 pretext task를 진행하여 모델을 학습한다. 서론이 길었다. 그렇다면 포스팅의 주제인 Semi-supervised learn이란? 일부 이미지는 l..
-
[논문리뷰]Unsupervised Out-of-Distribution Detection by Maximum Classifier Discrepancy논문리뷰 2020. 6. 13. 01:44
1. Introduction 기존 OOD 방법론 논문 : - ID/ OOD 라벨링이 되어있는 데이터로 모델 학습 - ID 데이터에 대한 clf 모델 학습 및 OOD 탐지. 본 논문 : - ID데이터에 대한 clf 모델 생성 --> ID/OOD데이터에 대한 라벨링 없이 clf 모델을 unsupervised learn을 통해 finetuning 2. 모델 3. 학습 STEP A 데이터를 통한 CLF 모델 FCL에 2개의 Linear Layer(Decision boundary)를 형성 Loss Function : Cross Entropy STEP B ID/OOD를 혼합한 라벨링 되지않은 데이터를 이용해 2개의 Linear Layer의 거리차이가 크도록 모델 학습 및 클래스 라벨링되어있는 ID 데이터로 모델 ..