감성 분석 : 문서의 주관적인 감성/의견/감정/기분 등을 파악하기 위한 방법으로 소셜미디어, 여론조사, 온라인 리뷰, 피드백 등 다양한 분야에서 활용되고 있음. : 문서 내 텍스트가 나타내는 여러가지 주관적인 단어와 문맥을 기반으로 감성 수치를 계산하는 방법 이용. : 긍정 감성 지수와 부정 감성 지수로 구성되며 이들 지수를 합산해 긍정감성 또는 부정감성을 결정함. 지도학습의 방식 : 학습 데이터와 타깃레이블 값을 기반으로 감성분석 학습을 진행한 뒤 이를 기반으로 다른 데이터의 감성 분석을 예측하는 방법으로 일반적인 텍스트 기반의 분류와 거의 동일. 비지도 학습의 방식 ‘Lexicon’이라는 일종의 감성 어휘사전 이용, 감성 분석을 위한 용어와 문맥에 대한 다양한 정보를 가지고 있으며, 이를 이용해 문서..
텍스트 분류 실습(20 뉴스그룹 분류) 텍스트를 피처 벡터화로 변환하면 일반적으로 희소행렬 형태가 되고, 이러한 희소 행렬에 분류를 효과적으로 잘 처리할 수 있는 알고리즘은 로지스틱 회귀, 선형 서포트 벡터 머신, 나이브 베이즈 등임. ** subset 파라미터 이용하면 학습 데이터 세트와 테스트 데이터 세트를 분리해 내려받을 수 있음. from sklearn.datasets import fetch_20newsgroups #subset = 'train'으로 학습용 데이터만 추출, remove=('headers', 'footers', 'quotes')로 내용만 추출 fetch_20newsgroups(subset='train', remove=('headers', 'footers', 'quotes'), ran..
Bag of Words(BOW) 문서가 가지는 모든 단어를 문맥이나 순서를 무시하고 일괄적으로 단어에 대해 빈도 값을 부여해 피처 값을 추출하는 모델 문장에 있는 모든 단어에서 중복을 제거하고(여기 인덱스 부여할때만!) 각 단어를 칼럼 형태로 나열함. 그리고 각 단어에 고유의 인덱스를 부여. ex) ‘and’:0, ‘baseball’;1 … 개별 문장에서 해당 단어가 나타나는 횟수를 각 단어(단어 인덱스)에 기재함. 단점 1. 문맥 의미 반영 부족 : 단어의 순서를 고려하지 않기 때문에 문장 내 문맥적 의미가 무시됨. 단점 2. 희소 행렬 문제 : 많은 문서에서 단어를 추출하면 매우 많은 단어가 칼럼으로 만들어지고, 문서마다 서로 다른 단어로 구성되기에 단어가 문서마다 나타나지 않는 경우가 훨씬 많음. ..
목록 1. 텍스트 분석 이해 2. 텍스트 사전 준비 작업(텍스트 전처리) - 텍스트 정규화 1. 텍스트 분석 이해 텍스트를 머신러닝에 적용하기 위해서는 비정형 텍스트 데이터를 어떻게 피처 형태로 추출하고 추출된 피처에 의미 있는 값을 부여하는가 하는 것이 매우 중요한 요소! 피처 벡터화 텍스트를 word(또는 word의 일부분) 기반의 다수의 피처로 추출하고 이 피처에 단어 빈도수와 같은 숫자 값을 부여하면 텍스트는 단어의 조합인 벡터값으로 표현될 수 있는데, 이렇게 텍스트를 변환하는 것을 피터벡터화 또는 피처 추출이라고 함. 텍스트 분석 수행 프로세스 텍스트 사전 준비작업(텍스트 전처리) : 텍스트를 피처로 만들기 전에 미리 클렌징, 대/소문자 변경, 특수문자 삭제 등의 클렌징 작업, 단어(Word) ..
목차 1. DBSCAN 2. 군집화 실습 - 고객 세그먼테이션 1. DBSCAN 밀도 기반 군집화의 대표적인 알고리즘, 특정 공간에서 가까이 있는 데이터가 많아 붐비는 지역(밀집지역)의 포인트를 찾음 → 특정 데이터를 중심으로 밀도가 높은 곳에 포함된 데이터에는 클러스터를 할당함(서로 인접한 데이터들은 같은 클러스터) ** 특정 공간 내에 데이터 밀도 차이를 기반 알고리즘으로 하고 있어서 복잡한 기하학적 분포도를 가진 데이터 세트에 대해서도 군집화를 잘 수행함 ex) 내부의 원 모양과 외부의 원 모양 형태의 분포를 가진 데이터 셋 이런 형태의 데이터는 K-Means와 GMM 보다 훨씬 분류를 잘한다. 가장 중요한 두 가지 파라미터 입실론 주변 영역(epsilon) : 개별 데이터를 중심으로 입실론 반경을..
GMM(Gaussian Mixture Model, MOG(Mixture of Gaussian Clustering) k-means clustering : 거리 기반, discrete label Gaussian Mixture : 확률 기반, probabilistic→responsibility (어떤 sample이 어떤 cluster에 얼마나 속하는지가 확률 값으로 나옴) ← 두 모델의 공통점은 iterative method라는 것. responsibility ← probability로 나타낸 cluster label, n번째 sample Xn이 k번째 cluster에 속할 확률 ex) 원래 k-means 에서는 R = [ 1 0 0 0 0 1 0 0 ..] 였지만, 여기선, r = [ 0.9 0.1 0 0 ..