워드임베딩
-
[부캠] NLP #1AI 부캠 2021. 2. 15. 15:55
NLP Trends of NLP Naiive Bayes classifier Word embedding NLP(Natural Langauage Processing) Low-level parsing Tokenize : 데이터를 최소 의미 단의로 나누는 과정 (최소 의미란, tokenizer에 따라 다르다.) Stemming : 동사, 형용사와 같은 용언에서 문장에 쓰일 때 형태가 변하지 않는 부분을 추출 def make_tokenized(data): tokenized = [] for sent in tqdm(data): tokens = tokenizer.morphs(sent, stem=True) #tokenize with stemming tokenized.append(tokens) return tokenize..