[파이썬 머신러닝 가이드] 텍스트 분석 - 토픽 모델링
토픽 모델링 - 20 뉴스그룹 토픽 모델링 : 문서 집합에 숨어 있는 주제를 찾아내는 것. 숨겨진 주제를 효과적으로 표현할 수 있는 중심 단어를 함축적으로 추출함. -LSA, LDA(Count 기반의 벡터화만 사용) from sklearn.datasets import fetch_20newsgroups from sklearn.feature_extraction.text import CountVectorizer from sklearn.decomposition import LatentDirichletAllocation # 모터사이클, 야구, 그래픽스, 윈도우즈, 중동, 기독교, 의학, 우주 주제를 추출. cats = ['rec.motorcycles', 'rec.sport.baseball', 'comp.graph..