평균 이동 : K-평균과 유사하게 중심을 군집의 중심으로 지속적으로 움직이면서 군집화를 수행하지만, K-평균이 중심에 소속된 데이터의 평균 거리 중심으로 이동하는 데 반해, 평균 이동은 중심을 데이터가 모여 있는 밀도가 가장 높은 곳으로 이동시킴 평균 이동 군집화 데이터의 분포도를 이용해 군집 중심점을 찾음. (군집 중심점은 데이터 포이트가 모여 있는 곳이기 때문에 확률 밀도 함수 이용) 가장 집중적으로 데이터가 모여있어 확률 밀도 함수가 피크인 점을 군집 중심점으로 선정하며, 일반적으로 주어진 모델의 확률 밀도 함수를 찾기 위해 KDE 이용. 특정 데이터를 반경 내의 데이터 분포 확률 밀도가 가장 높은 곳으로 이동하기 위해 주변 데이터와의 거리 값을 KDE 함수 값으로 입력한 뒤 그 반환 값을 현재 위..
목차 1. inertia 2. silhouette 군집 평가 (Cluster Evaluation) 대부분의 군집화 데이터 세트는 비교할 만한 타깃 레이블을 가지고 있지 않기 때문에 군집화가 효율적으로 잘 됐는지 평가할 수 있는 대표적인 방법으로 실루엣 분석 이용 + inertia 1. inertia inertia = 샘플과 가까운 centroid와의 거리 제곱의 합 or 평균. → 작을수록 좋은 값이나, 처음엔 큰 폭으로 떨어지나 갈수록 작아지는 폭이 줄어듦. cluster 증가할수록 감소함(가까운 cluster가 증가하며 centroid가 증가할테니) but 작아지는 폭이 줄어드는 것. 2. silhouette 분석 ** 내가 속한 cluster의 다른 샘플들과의 거리 = a 나랑 제일 근접한 clus..
K-Means 알고리즘 이해 : 군집화에서 가장 일반적으로 사용되는 알고리즘으로, 군집 중심(centroid) 라는 특정한 임의의 지점을 선택해 해당 중심에 가장 가까운 포인트들을 선택하는 군집화 기법 ① 먼저 군집화의 기준이 되는 중심을 구성하려는 군집화 개수만큼 임의의 위치에 가져다 놓는다. 전체 데이터를 2개로 군집화하려면 2개의 중심을 임의의 위치에 가져다 놓는 것이다. ② 각 데이터는 가장 가까운 곳에 위치한 중심점에 소속된다. 위 그림에서는 A,B 데이터가 같은 중심점에 소속되며, C, E, F 데이터가 같은 중심점에 소속된다. ③ 이렇게 소속이 결정되면 군집 중심점을 소속된 데이터의 평균 중심으로 이동한다. 위 그림에서는 A, B 데이터 포인트의 평균 위치로 중심점이 이동했고, 다른 중심점 ..
목차 1. LDA 2. NMF 1. LDA(Linear Discriminant Analysis) LDA는 선형 판별 분석법으로 불리며, PCA와 유사 둘 다 입력 데이터 셋을 저차원 공간에 투영해 차원을 축소하는 기법이지만, 중요한 차이는 LDA는 지도학습의 분류에서 사용하기 쉽도록 개별 클래스를 분별할 수 있는 기준을 최대한 유지하면서 차원을 축소함. PCA는 입력 데이터의 변동성이 가장 큰(분산이 큰) 축을 찾았지만, LDA는 입력 데이터의 결정값 클래스를 최대한으로 분리할 수 있는 축을 찾음 → LDA 구할 때 가장 큰 타이점은 공분산 행렬이 아니라, 클래스 간 분산과 클래스 내부 분산 행렬을 생성한 뒤, 이 행렬에 기반해 고유벡터를 구하고 입력 데이터를 투영함. ** LDA는 실제로는 PCA와 다..
PCA (Principal Component Analysis) data가 많이 있는 축 → 주성분 = principal component(데이터가 주로 분포한 축, 성분) 데이터의 특성을 가장 잘 살릴 수 있는, 가장 많이 분포해있는 축으로 축소시켜야 함. Covariance(공분산)이란? 보통 분산은 한 개의 특정한 변수의 데이터 변동을 의미하나, 공분산은 두 변수 간의 변동을 의미함. Cov(X,Y) > 0 → X가 증가할 때, Y도 증가함을 의미. 공분산 행렬은 여려 변수와 관련된 공분산을 포함하는 정방형 행렬. (분산의 multidimension ver.) PCA = covariance를 SVD 해서 그거의 장축을 고르면 됨. *** PCA는 covariance 구하고, 그 행렬에 SVD 적용해라..
목차 1. 차원 축소 개요 2. SVD 1. 차원 축소(Dimension Reduction) 개요 일반적으로 차원이 증가할수록 데이터 포인트 간의 거리가 기하급수적으로 멀어지게 되고, 희소한 구조를 가지게 됨. 수백 개 이상의 피처로 구성된 데이터 세트의 경우 상대적으로 적은 차원에서 학습된 모델보다 예측 신뢰도가 떨어짐. 피처가 많을 경우 개별 피처 간에 상관관계가 높을 가능성이 크고, 선형모델에서 입력 변수 간의 상관관계가 높을 경우 다중공선성 문제로 예측 성능이 저하됨. 피처 선택 : 특성 선택, 특정 피처에 종속성이 강한 불필요한 피처는 아예 제거, 데이터의 특징을 잘 나타내는 주요 피처만 선택. 피처 추출 특성 추출, 기존 피처를 저차원의 중요 피처로 압축해서 추출하는 것. 새롭게 추출된 중요 ..