'텍스트 분석' 태그의 글 목록

[파이썬 머신러닝 가이드] 텍스트 분석 - 텍스트 분류 실습(20 뉴스그룹 분류)

텍스트 분류 실습(20 뉴스그룹 분류) 텍스트를 피처 벡터화로 변환하면 일반적으로 희소행렬 형태가 되고, 이러한 희소 행렬에 분류를 효과적으로 잘 처리할 수 있는 알고리즘은 로지스틱 회귀, 선형 서포트 벡터 머신, 나이브 베이즈 등임. ** subset 파라미터 이용하면 학습 데이터 세트와 테스트 데이터 세트를 분리해 내려받을 수 있음. from sklearn.datasets import fetch_20newsgroups #subset = 'train'으로 학습용 데이터만 추출, remove=('headers', 'footers', 'quotes')로 내용만 추출 fetch_20newsgroups(subset='train', remove=('headers', 'footers', 'quotes'), ran..

format_list_bulleted Machine Learning/텍스트 분석
· 2023. 12. 26.
textsms

[파이썬 머신러닝 가이드] 텍스트 분석 - 텍스트 전처리(정규화)

목록 1. 텍스트 분석 이해 2. 텍스트 사전 준비 작업(텍스트 전처리) - 텍스트 정규화 1. 텍스트 분석 이해 텍스트를 머신러닝에 적용하기 위해서는 비정형 텍스트 데이터를 어떻게 피처 형태로 추출하고 추출된 피처에 의미 있는 값을 부여하는가 하는 것이 매우 중요한 요소! 피처 벡터화 텍스트를 word(또는 word의 일부분) 기반의 다수의 피처로 추출하고 이 피처에 단어 빈도수와 같은 숫자 값을 부여하면 텍스트는 단어의 조합인 벡터값으로 표현될 수 있는데, 이렇게 텍스트를 변환하는 것을 피터벡터화 또는 피처 추출이라고 함. 텍스트 분석 수행 프로세스 텍스트 사전 준비작업(텍스트 전처리) : 텍스트를 피처로 만들기 전에 미리 클렌징, 대/소문자 변경, 특수문자 삭제 등의 클렌징 작업, 단어(Word) ..

format_list_bulleted Machine Learning/텍스트 분석
· 2023. 12. 26.
textsms

navigate_before
1
navigate_next

[파이썬 머신러닝 가이드] 텍스트 분석 - 텍스트 분류 실습(20 뉴스그룹 분류)

[파이썬 머신러닝 가이드] 텍스트 분석 - 텍스트 전처리(정규화)

티스토리툴바