다항 회귀 이해 다항 회귀란, 회귀가 독립변수의 단항식이 아닌 2차, 3차 방정식과 같은 다항식으로 표현되는 것을 다항(polynomial) 회귀라 함, **** 다항 회귀는 선형 회귀임!! 회귀에서 선형 회귀 / 비선형 회귀를 나누는 기준은 회귀 계수w 가 선형/비선형인지에 따른 것이지 독립변수 x의 선형/비선형 여부와는 무관함, 위 식에서 새로운 변수인 Z를 z=[x1,x2, x1x2, x1제곱, x2제곱]이라 한다면 y=w0+w1z1+w2z2+w3z3+w4z5+w5z5와 같이 표현할 수 있기에 여전히 선형 회귀. 사이킷런에서, 비선형 함수를 선형 모델에 적용시키는 방법으로 구현 PolynomialFeatures 클래스를 통해 피처를 Polynomial(다항식) 피처로 변환함. ex) Polynomi..
목차 1. 사이킷런 Linear Regression을 이용한 보스턴 주택 가격 예측 2. 편향과 분산 3. 회귀 평가 지표 1. 사이킷런 Linear Regression을 이용한 보스턴 주택 가격 예측 class sklearn.linear_model.LinearRegression(fit_intercept=True, normalize=False, copy_X=True, n_jobs=1) 입력 파라미터 - fit_intercept : 불린 값으로, 디폴트는 True, Intercept(절편) 값 계산할지 말지 지정. False로 지정하면 intercept가 사용되지 않고 0으로 지정됨. - normalize : 불린 값으로, 디폴트는 False. fit_intercept가 False인 경우에는 이 파라미터가..
Q. 어떻게 비용함수가 최소가 되는 w 파라미터를 구할 수 있을까? Gradient Descent 원래 함수의 최대, 최소를 점진적으로 근사하여 찾는 방법. (점진적으로 반복적인 계산을 통해 w 파라미터 값을 업데이트 하면서 오류 값이 최소가 되는 w 파라미터를 구하는 방식) 반복적으로 비용 함수의 반환 값(예측값과 실제값의 차이)이 작아지는 방향성을 가지고 w 파라미터를 지속해서 보정해 나감. → 오류 값이 더이상 작아지지 않으면 그 오류 값을 최소 비용으로 판단하고, 그 때 w 값을 최적 파라미터로 반환 **Gradient = 원래 함수가 가장 빠르게 증가하는 방향 → 최솟값 구하려면 - 붙이면 됨. 이 비용함수를 최소화 하는 w0과 w1의 값은, 두 개의 w파라미터인 w0과 w1 각 변수에 순차적으..
목차 1. 회귀 소개 2. 단순 선형 회귀를 통한 회귀 이해 1. 회귀 소개 = 여러 개의 독립변수와 한 개의 종속변수 간의 상관관계를 모델링하는 기법 독립변수 X = 피처 다른 변수에 영향 받지 않고 독립적으로 변화하는 수. 입력변수, 설명변수라고도 함. 종속변수 Y = 결정값 독립변수의 영향을 받아 값이 변화하는 수로 분석의 대상이 되는 변수를 의미. 반응변수, 출력변수라고도 함. 회귀변수 W0, W1 독립변수의 값에 영향을 미치는 회귀계수 잔차 실제 값과 회귀 모델의 차이에 따른 오류값. → 최적의 회귀 모델을 만든다는 건, 바로 전체 데이터의 잔차 합이 최소가 되는 모델을 만든다는 것. 오류 값 합이 최소가 될 수 있는 최적의 회귀계수를 찾는다. ⇒ 주어진 피처와 결정 값 데이터 기반에서 학습을 ..
스태킹 앙상블 스태킹, 배깅(각각의 분류기가 모두 같은 유형, vs. 보팅), 부스팅 모두 개별적인 여러 알고리즘을 서로 결합해 예측 결과 도출 **가장 큰 차이점 = 스태킹은 개별 알고리즘으로 예측한 데이터를 기반으로 다시 예측을 수행한다는 것. = > 개별 알고리즘의 예측 결과 데이터 세트를 최종적인 메타 데이터 세트로 만들어 별도의 ML 알고리즘으로 최종 학습을 수행하고 테스트 데이터를 기반으로 다시 최종 예측을 수행 (개별 모델의 예측된 데이터 세트를 다시 기반으로 하여 학습하고 예측하는 방식을 메타 모델이라함) ** 필요한 두 가지 모델 1) 개별적인 기반 모델 2) 개별 기반 모델의 예측 데이터를 학습 데이터로 만들어서 학습하는 최종 메타 모델 **핵심!! 여러 개별 모델의 예측 데이터를 각각..
목차 1. 베이지안 최적화 2. 언더 샘플링과 오버 샘플링 3. 이상치 데이터 제거 베이지안 최적화 기반의 HyperOpt를 이용한 하이퍼 파라미터 튜닝 Grid Search 단점 하이퍼 파라미터의 개수가 많을 경우 최적화 수행 시간이 오래 걸림 1. 베이지안 최적화 목적 함수 식을 제대로 알 수 없는 블랙 박스 형태의 함수에서 최대 또는 최소 함수 반환 값을 만드는 최적 입력값을 가능한 적은 시도를 통해 빠르고 효과적으로 찾아주는 방식 f 반환 값은 최대/최소로 하는 x,y 값을 찾아내는 것. 함수 식 복잡, 입력값 개수 많거나 범위 넓으면 순차적으로 입력값 대입해서는 짧은 시간 안에 최적 입렵값 찾을 수 X → 베이지안 최적화 베이지안 확률에 기반을 두고 있는 최적화 기법. 베이지안 추론은 ,, 추론..