Bag of Words(BOW) 문서가 가지는 모든 단어를 문맥이나 순서를 무시하고 일괄적으로 단어에 대해 빈도 값을 부여해 피처 값을 추출하는 모델 문장에 있는 모든 단어에서 중복을 제거하고(여기 인덱스 부여할때만!) 각 단어를 칼럼 형태로 나열함. 그리고 각 단어에 고유의 인덱스를 부여. ex) ‘and’:0, ‘baseball’;1 … 개별 문장에서 해당 단어가 나타나는 횟수를 각 단어(단어 인덱스)에 기재함. 단점 1. 문맥 의미 반영 부족 : 단어의 순서를 고려하지 않기 때문에 문장 내 문맥적 의미가 무시됨. 단점 2. 희소 행렬 문제 : 많은 문서에서 단어를 추출하면 매우 많은 단어가 칼럼으로 만들어지고, 문서마다 서로 다른 단어로 구성되기에 단어가 문서마다 나타나지 않는 경우가 훨씬 많음. ..
목록 1. 텍스트 분석 이해 2. 텍스트 사전 준비 작업(텍스트 전처리) - 텍스트 정규화 1. 텍스트 분석 이해 텍스트를 머신러닝에 적용하기 위해서는 비정형 텍스트 데이터를 어떻게 피처 형태로 추출하고 추출된 피처에 의미 있는 값을 부여하는가 하는 것이 매우 중요한 요소! 피처 벡터화 텍스트를 word(또는 word의 일부분) 기반의 다수의 피처로 추출하고 이 피처에 단어 빈도수와 같은 숫자 값을 부여하면 텍스트는 단어의 조합인 벡터값으로 표현될 수 있는데, 이렇게 텍스트를 변환하는 것을 피터벡터화 또는 피처 추출이라고 함. 텍스트 분석 수행 프로세스 텍스트 사전 준비작업(텍스트 전처리) : 텍스트를 피처로 만들기 전에 미리 클렌징, 대/소문자 변경, 특수문자 삭제 등의 클렌징 작업, 단어(Word) ..
목차 1. DBSCAN 2. 군집화 실습 - 고객 세그먼테이션 1. DBSCAN 밀도 기반 군집화의 대표적인 알고리즘, 특정 공간에서 가까이 있는 데이터가 많아 붐비는 지역(밀집지역)의 포인트를 찾음 → 특정 데이터를 중심으로 밀도가 높은 곳에 포함된 데이터에는 클러스터를 할당함(서로 인접한 데이터들은 같은 클러스터) ** 특정 공간 내에 데이터 밀도 차이를 기반 알고리즘으로 하고 있어서 복잡한 기하학적 분포도를 가진 데이터 세트에 대해서도 군집화를 잘 수행함 ex) 내부의 원 모양과 외부의 원 모양 형태의 분포를 가진 데이터 셋 이런 형태의 데이터는 K-Means와 GMM 보다 훨씬 분류를 잘한다. 가장 중요한 두 가지 파라미터 입실론 주변 영역(epsilon) : 개별 데이터를 중심으로 입실론 반경을..
GMM(Gaussian Mixture Model, MOG(Mixture of Gaussian Clustering) k-means clustering : 거리 기반, discrete label Gaussian Mixture : 확률 기반, probabilistic→responsibility (어떤 sample이 어떤 cluster에 얼마나 속하는지가 확률 값으로 나옴) ← 두 모델의 공통점은 iterative method라는 것. responsibility ← probability로 나타낸 cluster label, n번째 sample Xn이 k번째 cluster에 속할 확률 ex) 원래 k-means 에서는 R = [ 1 0 0 0 0 1 0 0 ..] 였지만, 여기선, r = [ 0.9 0.1 0 0 ..
평균 이동 : K-평균과 유사하게 중심을 군집의 중심으로 지속적으로 움직이면서 군집화를 수행하지만, K-평균이 중심에 소속된 데이터의 평균 거리 중심으로 이동하는 데 반해, 평균 이동은 중심을 데이터가 모여 있는 밀도가 가장 높은 곳으로 이동시킴 평균 이동 군집화 데이터의 분포도를 이용해 군집 중심점을 찾음. (군집 중심점은 데이터 포이트가 모여 있는 곳이기 때문에 확률 밀도 함수 이용) 가장 집중적으로 데이터가 모여있어 확률 밀도 함수가 피크인 점을 군집 중심점으로 선정하며, 일반적으로 주어진 모델의 확률 밀도 함수를 찾기 위해 KDE 이용. 특정 데이터를 반경 내의 데이터 분포 확률 밀도가 가장 높은 곳으로 이동하기 위해 주변 데이터와의 거리 값을 KDE 함수 값으로 입력한 뒤 그 반환 값을 현재 위..
목차 1. inertia 2. silhouette 군집 평가 (Cluster Evaluation) 대부분의 군집화 데이터 세트는 비교할 만한 타깃 레이블을 가지고 있지 않기 때문에 군집화가 효율적으로 잘 됐는지 평가할 수 있는 대표적인 방법으로 실루엣 분석 이용 + inertia 1. inertia inertia = 샘플과 가까운 centroid와의 거리 제곱의 합 or 평균. → 작을수록 좋은 값이나, 처음엔 큰 폭으로 떨어지나 갈수록 작아지는 폭이 줄어듦. cluster 증가할수록 감소함(가까운 cluster가 증가하며 centroid가 증가할테니) but 작아지는 폭이 줄어드는 것. 2. silhouette 분석 ** 내가 속한 cluster의 다른 샘플들과의 거리 = a 나랑 제일 근접한 clus..