목차 1. DBSCAN 2. 군집화 실습 - 고객 세그먼테이션 1. DBSCAN 밀도 기반 군집화의 대표적인 알고리즘, 특정 공간에서 가까이 있는 데이터가 많아 붐비는 지역(밀집지역)의 포인트를 찾음 → 특정 데이터를 중심으로 밀도가 높은 곳에 포함된 데이터에는 클러스터를 할당함(서로 인접한 데이터들은 같은 클러스터) ** 특정 공간 내에 데이터 밀도 차이를 기반 알고리즘으로 하고 있어서 복잡한 기하학적 분포도를 가진 데이터 세트에 대해서도 군집화를 잘 수행함 ex) 내부의 원 모양과 외부의 원 모양 형태의 분포를 가진 데이터 셋 이런 형태의 데이터는 K-Means와 GMM 보다 훨씬 분류를 잘한다. 가장 중요한 두 가지 파라미터 입실론 주변 영역(epsilon) : 개별 데이터를 중심으로 입실론 반경을..
GMM(Gaussian Mixture Model, MOG(Mixture of Gaussian Clustering) k-means clustering : 거리 기반, discrete label Gaussian Mixture : 확률 기반, probabilistic→responsibility (어떤 sample이 어떤 cluster에 얼마나 속하는지가 확률 값으로 나옴) ← 두 모델의 공통점은 iterative method라는 것. responsibility ← probability로 나타낸 cluster label, n번째 sample Xn이 k번째 cluster에 속할 확률 ex) 원래 k-means 에서는 R = [ 1 0 0 0 0 1 0 0 ..] 였지만, 여기선, r = [ 0.9 0.1 0 0 ..
평균 이동 : K-평균과 유사하게 중심을 군집의 중심으로 지속적으로 움직이면서 군집화를 수행하지만, K-평균이 중심에 소속된 데이터의 평균 거리 중심으로 이동하는 데 반해, 평균 이동은 중심을 데이터가 모여 있는 밀도가 가장 높은 곳으로 이동시킴 평균 이동 군집화 데이터의 분포도를 이용해 군집 중심점을 찾음. (군집 중심점은 데이터 포이트가 모여 있는 곳이기 때문에 확률 밀도 함수 이용) 가장 집중적으로 데이터가 모여있어 확률 밀도 함수가 피크인 점을 군집 중심점으로 선정하며, 일반적으로 주어진 모델의 확률 밀도 함수를 찾기 위해 KDE 이용. 특정 데이터를 반경 내의 데이터 분포 확률 밀도가 가장 높은 곳으로 이동하기 위해 주변 데이터와의 거리 값을 KDE 함수 값으로 입력한 뒤 그 반환 값을 현재 위..
목차 1. inertia 2. silhouette 군집 평가 (Cluster Evaluation) 대부분의 군집화 데이터 세트는 비교할 만한 타깃 레이블을 가지고 있지 않기 때문에 군집화가 효율적으로 잘 됐는지 평가할 수 있는 대표적인 방법으로 실루엣 분석 이용 + inertia 1. inertia inertia = 샘플과 가까운 centroid와의 거리 제곱의 합 or 평균. → 작을수록 좋은 값이나, 처음엔 큰 폭으로 떨어지나 갈수록 작아지는 폭이 줄어듦. cluster 증가할수록 감소함(가까운 cluster가 증가하며 centroid가 증가할테니) but 작아지는 폭이 줄어드는 것. 2. silhouette 분석 ** 내가 속한 cluster의 다른 샘플들과의 거리 = a 나랑 제일 근접한 clus..
K-Means 알고리즘 이해 : 군집화에서 가장 일반적으로 사용되는 알고리즘으로, 군집 중심(centroid) 라는 특정한 임의의 지점을 선택해 해당 중심에 가장 가까운 포인트들을 선택하는 군집화 기법 ① 먼저 군집화의 기준이 되는 중심을 구성하려는 군집화 개수만큼 임의의 위치에 가져다 놓는다. 전체 데이터를 2개로 군집화하려면 2개의 중심을 임의의 위치에 가져다 놓는 것이다. ② 각 데이터는 가장 가까운 곳에 위치한 중심점에 소속된다. 위 그림에서는 A,B 데이터가 같은 중심점에 소속되며, C, E, F 데이터가 같은 중심점에 소속된다. ③ 이렇게 소속이 결정되면 군집 중심점을 소속된 데이터의 평균 중심으로 이동한다. 위 그림에서는 A, B 데이터 포인트의 평균 위치로 중심점이 이동했고, 다른 중심점 ..