분류 전체보기
-
[부캠] CV 01AI 부캠 2021. 3. 9. 16:01
Data Augmentation Pre-trained model Leveraging unlabeled dataset Data Augmentation 우리가 얻을 수 있는 이미지 데이터는 매우 한정적이다. 따라서 model은 biased한 방향으로 학습할 수 밖에 없다. 이를 해결하기위해, augmentation으로 제공되지 않은 데이터를 만들어 generalized한 방향으로 model을 학습시킬 수 있다. Color 사진의 밝기, 명도, 채도를 변화시키는 것 #pytorch 에서는 colorjitter 라이브러리 사용 aug_f = transforms.ColorJitter(brightness=(0.2, 2), contrast=(0.3, 2), saturation=(0.2, 2), hue=(-0.3, 0..
-
[부캠] Graph01AI 부캠 2021. 2. 22. 20:40
그래프란 그래프 관련 인공지능 문제 그래프 유형 및 분류 그래프 표현 및 저장 실제 그래프 vs 랜덤 그래프 작은 세상 효과 두터운 꼬리 분포 거대 연결 요소 군집 구조 python library (networkx) 그래프란 정점(Vertex)와 간선(Edge)로 이루어진 수학적 구조 세상의 복잡계(complex system)를 표현하는 방법 *complex system : 구성 요소간의 많은 상호 작용있는 세상 표현 정점의 집합을 V, 간선 집합을 E, 그래프를 G = (V,E)라 표현 이웃 정점과 연결된 다른 정점을 의미 방향성이 있는 그래프는 나가는 이웃 & 들어오는 이웃 으로 구분한다. 그래프 관련 인공지능 문제 정점 분류 문제 트위터의 Retweet 관계를 파악하여 Classification을 ..
-
[부캠]NLP 05 (NLP pre-trained model)AI 부캠 2021. 2. 21. 21:18
Self supervised pretraining model GPT-1 BERT GPT-2 GPT-3 ALBERT ELECTRA Light-weight Models Fusing Knowledge Graph into Language Model Self supervised pretraining models 딥러닝 모델에는 supervised model과 unsupervised model이 있다. supervised model은 특정한 label이 있어서 그것을 맞추는 문제 ex) classification unsupervised model은 label이 없이 거리, 밀도 등 데이터에서 얻을 수 있는 특징으로 푸는 문제 ex) clustering Self supervised model은 그 중간에 존재한다. ..
-
[부캠] NLP 04 transformer modelAI 부캠 2021. 2. 19. 15:33
Self attention model Transformer model Self attention model 어텐션모델은 여기서 :) self attention model Seq2Seq model을 생각해보자. 여기서 attention model을 이용할 때, encoder,decoder hidden vector는 RNN계열로 구하고, decoder에서 ouput을 구할 때만 attention model을 사용했다. 여기서, RNN을 이용한 부분을 싹- 빼고, only attention model만을 사용해보자. 그럼 드는 생각 "아니 그럼, hidden vector를 어떻게 구해?" hidden vector를 구하기 위해 self attention model에서는 모든 embedding vector(wo..
-
[부캠] NLP03AI 부캠 2021. 2. 17. 14:40
Seq2Seq model Beam Search BLEU score Seq2Seq model Seq2Seq model 인풋으로 시퀀스 데이터를 받고, 아웃풋으로도 시퀀스를 전달하는 모델. ex > 번역 Seq2Seq using RNN families Encoder 와 Decoder 각각 다른 RNN model을 사용하여 학습한다. 단, Encoder의 마지막 hidden vector가 Decoder의 최초 hidden vector값으로 전달된다. 번역의 경우, decoder는 처음 시작을 뜻하는 start token, SOS 를 최초 입력한다. 그리고, 모델에서 아웃풋으로 end token EOS를 전달할때까지 진행한다. 한계는 당연히.. 긴 시퀀스를 학습시킬때는 RNN 계열의 문제점인 초기 time st..
-
[부캠]NLP2AI 부캠 2021. 2. 16. 15:28
RNN LSTM GRU RNN RNN Seqeuential data를 처리할 때, 과거의 정보를 다음 input과 함께 전달하는 모델. 모든 time step에서 같은 parameter(weight)를 공유한다는 특징이 있다. 다음과 같이 fW라는 함수는 weight W를 갖는다. 이 W 는 ht-1 벡터에 대한 weight Whh, xt벡터에 대한 weight Wxh로 이루어져있다. 또한, 이렇게 만들어진 ht를 output 으로 만들어주는 Why도 존재한다. 여기서 핵심은 이 Whh,Wxh,Why를 모든 time step에서 공유한다는 것이다. RNN families backpropagation (BPTT) 그렇다면, 어떻게 backpropagation을 진행해 학습할까? BPTT (backpropa..
-
[부캠] NLP #1AI 부캠 2021. 2. 15. 15:55
NLP Trends of NLP Naiive Bayes classifier Word embedding NLP(Natural Langauage Processing) Low-level parsing Tokenize : 데이터를 최소 의미 단의로 나누는 과정 (최소 의미란, tokenizer에 따라 다르다.) Stemming : 동사, 형용사와 같은 용언에서 문장에 쓰일 때 형태가 변하지 않는 부분을 추출 def make_tokenized(data): tokenized = [] for sent in tqdm(data): tokens = tokenizer.morphs(sent, stem=True) #tokenize with stemming tokenized.append(tokens) return tokenize..
-
[부캠]Genreative modelAI 부캠 2021. 2. 13. 10:38
Generative model Auto regression model Variation Auto Encoder GAN Generative model 문제 정의 우도(likelihood)나 사후 확률(posterior probability)를 사용하여 분류 경계선(decision boundary)를 만드는 모델 예를들어, 이미지에서 강아지 class의 분포를 가르키는 P(x)가 있다면, 이 분포 P(x)를 추측하는 방법이다. 한계 분포를 구성하는 feature는 서로 의존적이기 때문에 parameter 수가 기하급수적으로 늘어난다. ex> Bernouli distribution --> 필요한 params 수 : 1 Categorical distribution --> 필요한 params 수 : n-1 (cl..