K-Means 알고리즘 이해 : 군집화에서 가장 일반적으로 사용되는 알고리즘으로, 군집 중심(centroid) 라는 특정한 임의의 지점을 선택해 해당 중심에 가장 가까운 포인트들을 선택하는 군집화 기법 ① 먼저 군집화의 기준이 되는 중심을 구성하려는 군집화 개수만큼 임의의 위치에 가져다 놓는다. 전체 데이터를 2개로 군집화하려면 2개의 중심을 임의의 위치에 가져다 놓는 것이다. ② 각 데이터는 가장 가까운 곳에 위치한 중심점에 소속된다. 위 그림에서는 A,B 데이터가 같은 중심점에 소속되며, C, E, F 데이터가 같은 중심점에 소속된다. ③ 이렇게 소속이 결정되면 군집 중심점을 소속된 데이터의 평균 중심으로 이동한다. 위 그림에서는 A, B 데이터 포인트의 평균 위치로 중심점이 이동했고, 다른 중심점 ..
목차 1. LDA 2. NMF 1. LDA(Linear Discriminant Analysis) LDA는 선형 판별 분석법으로 불리며, PCA와 유사 둘 다 입력 데이터 셋을 저차원 공간에 투영해 차원을 축소하는 기법이지만, 중요한 차이는 LDA는 지도학습의 분류에서 사용하기 쉽도록 개별 클래스를 분별할 수 있는 기준을 최대한 유지하면서 차원을 축소함. PCA는 입력 데이터의 변동성이 가장 큰(분산이 큰) 축을 찾았지만, LDA는 입력 데이터의 결정값 클래스를 최대한으로 분리할 수 있는 축을 찾음 → LDA 구할 때 가장 큰 타이점은 공분산 행렬이 아니라, 클래스 간 분산과 클래스 내부 분산 행렬을 생성한 뒤, 이 행렬에 기반해 고유벡터를 구하고 입력 데이터를 투영함. ** LDA는 실제로는 PCA와 다..
PCA (Principal Component Analysis) data가 많이 있는 축 → 주성분 = principal component(데이터가 주로 분포한 축, 성분) 데이터의 특성을 가장 잘 살릴 수 있는, 가장 많이 분포해있는 축으로 축소시켜야 함. Covariance(공분산)이란? 보통 분산은 한 개의 특정한 변수의 데이터 변동을 의미하나, 공분산은 두 변수 간의 변동을 의미함. Cov(X,Y) > 0 → X가 증가할 때, Y도 증가함을 의미. 공분산 행렬은 여려 변수와 관련된 공분산을 포함하는 정방형 행렬. (분산의 multidimension ver.) PCA = covariance를 SVD 해서 그거의 장축을 고르면 됨. *** PCA는 covariance 구하고, 그 행렬에 SVD 적용해라..
목차 1. 차원 축소 개요 2. SVD 1. 차원 축소(Dimension Reduction) 개요 일반적으로 차원이 증가할수록 데이터 포인트 간의 거리가 기하급수적으로 멀어지게 되고, 희소한 구조를 가지게 됨. 수백 개 이상의 피처로 구성된 데이터 세트의 경우 상대적으로 적은 차원에서 학습된 모델보다 예측 신뢰도가 떨어짐. 피처가 많을 경우 개별 피처 간에 상관관계가 높을 가능성이 크고, 선형모델에서 입력 변수 간의 상관관계가 높을 경우 다중공선성 문제로 예측 성능이 저하됨. 피처 선택 : 특성 선택, 특정 피처에 종속성이 강한 불필요한 피처는 아예 제거, 데이터의 특징을 잘 나타내는 주요 피처만 선택. 피처 추출 특성 추출, 기존 피처를 저차원의 중요 피처로 압축해서 추출하는 것. 새롭게 추출된 중요 ..
다항 회귀 이해 다항 회귀란, 회귀가 독립변수의 단항식이 아닌 2차, 3차 방정식과 같은 다항식으로 표현되는 것을 다항(polynomial) 회귀라 함, **** 다항 회귀는 선형 회귀임!! 회귀에서 선형 회귀 / 비선형 회귀를 나누는 기준은 회귀 계수w 가 선형/비선형인지에 따른 것이지 독립변수 x의 선형/비선형 여부와는 무관함, 위 식에서 새로운 변수인 Z를 z=[x1,x2, x1x2, x1제곱, x2제곱]이라 한다면 y=w0+w1z1+w2z2+w3z3+w4z5+w5z5와 같이 표현할 수 있기에 여전히 선형 회귀. 사이킷런에서, 비선형 함수를 선형 모델에 적용시키는 방법으로 구현 PolynomialFeatures 클래스를 통해 피처를 Polynomial(다항식) 피처로 변환함. ex) Polynomi..
목차 1. 사이킷런 Linear Regression을 이용한 보스턴 주택 가격 예측 2. 편향과 분산 3. 회귀 평가 지표 1. 사이킷런 Linear Regression을 이용한 보스턴 주택 가격 예측 class sklearn.linear_model.LinearRegression(fit_intercept=True, normalize=False, copy_X=True, n_jobs=1) 입력 파라미터 - fit_intercept : 불린 값으로, 디폴트는 True, Intercept(절편) 값 계산할지 말지 지정. False로 지정하면 intercept가 사용되지 않고 0으로 지정됨. - normalize : 불린 값으로, 디폴트는 False. fit_intercept가 False인 경우에는 이 파라미터가..