[파이썬 머신러닝 가이드] 텍스트 분석 - 텍스트 전처리(정규화)
목록 1. 텍스트 분석 이해 2. 텍스트 사전 준비 작업(텍스트 전처리) - 텍스트 정규화 1. 텍스트 분석 이해 텍스트를 머신러닝에 적용하기 위해서는 비정형 텍스트 데이터를 어떻게 피처 형태로 추출하고 추출된 피처에 의미 있는 값을 부여하는가 하는 것이 매우 중요한 요소! 피처 벡터화 텍스트를 word(또는 word의 일부분) 기반의 다수의 피처로 추출하고 이 피처에 단어 빈도수와 같은 숫자 값을 부여하면 텍스트는 단어의 조합인 벡터값으로 표현될 수 있는데, 이렇게 텍스트를 변환하는 것을 피터벡터화 또는 피처 추출이라고 함. 텍스트 분석 수행 프로세스 텍스트 사전 준비작업(텍스트 전처리) : 텍스트를 피처로 만들기 전에 미리 클렌징, 대/소문자 변경, 특수문자 삭제 등의 클렌징 작업, 단어(Word) ..