[파이썬 머신러닝 가이드] 텍스트 분석 - 문서 군집화
문서 군집화 소개와 실습(Opinion Review 데이터 세트) 문서 군집화 : 비슷한 텍스트 구성의 문서를 군집화 하는 것 ↔ 사전에 결정 카테고리 값을 가진 학습 데이터가 필요한 텍스트 분류 기반의 문서분류와 다르게, 문서 군집화는 학습 데이터 세트가 필요없는 비지도학습 (군집화) 기반으로 동작함. +TfidfVectorizer는 Lemmatization 같은 어근 변환을 직접 지원하지는 않지만, tokenizer 인자에 커스텀 어근 변환 함수를 적용해 어근 변환을 수행할 수 있음. 벡터화 수행해주고, k-평균 이용해서 군집화 해줌. → cluster_label(0, 1, 2..) 별로 filename 확인하면 어떻게 군집화 되어있는지 볼 수 있음. → 군집화된 결과 보면, 군집개수가 많게 설정 되..