[파이썬 머신러닝 가이드] 텍스트 분석 - 텍스트 분류 실습(20 뉴스그룹 분류)
텍스트 분류 실습(20 뉴스그룹 분류) 텍스트를 피처 벡터화로 변환하면 일반적으로 희소행렬 형태가 되고, 이러한 희소 행렬에 분류를 효과적으로 잘 처리할 수 있는 알고리즘은 로지스틱 회귀, 선형 서포트 벡터 머신, 나이브 베이즈 등임. ** subset 파라미터 이용하면 학습 데이터 세트와 테스트 데이터 세트를 분리해 내려받을 수 있음. from sklearn.datasets import fetch_20newsgroups #subset = 'train'으로 학습용 데이터만 추출, remove=('headers', 'footers', 'quotes')로 내용만 추출 fetch_20newsgroups(subset='train', remove=('headers', 'footers', 'quotes'), ran..