[파이썬 머신러닝 가이드] 텍스트 분석 - Bag of Words(BOW)
Bag of Words(BOW) 문서가 가지는 모든 단어를 문맥이나 순서를 무시하고 일괄적으로 단어에 대해 빈도 값을 부여해 피처 값을 추출하는 모델 문장에 있는 모든 단어에서 중복을 제거하고(여기 인덱스 부여할때만!) 각 단어를 칼럼 형태로 나열함. 그리고 각 단어에 고유의 인덱스를 부여. ex) ‘and’:0, ‘baseball’;1 … 개별 문장에서 해당 단어가 나타나는 횟수를 각 단어(단어 인덱스)에 기재함. 단점 1. 문맥 의미 반영 부족 : 단어의 순서를 고려하지 않기 때문에 문장 내 문맥적 의미가 무시됨. 단점 2. 희소 행렬 문제 : 많은 문서에서 단어를 추출하면 매우 많은 단어가 칼럼으로 만들어지고, 문서마다 서로 다른 단어로 구성되기에 단어가 문서마다 나타나지 않는 경우가 훨씬 많음. ..