다항 회귀 이해 다항 회귀란, 회귀가 독립변수의 단항식이 아닌 2차, 3차 방정식과 같은 다항식으로 표현되는 것을 다항(polynomial) 회귀라 함, **** 다항 회귀는 선형 회귀임!! 회귀에서 선형 회귀 / 비선형 회귀를 나누는 기준은 회귀 계수w 가 선형/비선형인지에 따른 것이지 독립변수 x의 선형/비선형 여부와는 무관함, 위 식에서 새로운 변수인 Z를 z=[x1,x2, x1x2, x1제곱, x2제곱]이라 한다면 y=w0+w1z1+w2z2+w3z3+w4z5+w5z5와 같이 표현할 수 있기에 여전히 선형 회귀. 사이킷런에서, 비선형 함수를 선형 모델에 적용시키는 방법으로 구현 PolynomialFeatures 클래스를 통해 피처를 Polynomial(다항식) 피처로 변환함. ex) Polynomi..
목차 1. 사이킷런 Linear Regression을 이용한 보스턴 주택 가격 예측 2. 편향과 분산 3. 회귀 평가 지표 1. 사이킷런 Linear Regression을 이용한 보스턴 주택 가격 예측 class sklearn.linear_model.LinearRegression(fit_intercept=True, normalize=False, copy_X=True, n_jobs=1) 입력 파라미터 - fit_intercept : 불린 값으로, 디폴트는 True, Intercept(절편) 값 계산할지 말지 지정. False로 지정하면 intercept가 사용되지 않고 0으로 지정됨. - normalize : 불린 값으로, 디폴트는 False. fit_intercept가 False인 경우에는 이 파라미터가..
Q. 어떻게 비용함수가 최소가 되는 w 파라미터를 구할 수 있을까? Gradient Descent 원래 함수의 최대, 최소를 점진적으로 근사하여 찾는 방법. (점진적으로 반복적인 계산을 통해 w 파라미터 값을 업데이트 하면서 오류 값이 최소가 되는 w 파라미터를 구하는 방식) 반복적으로 비용 함수의 반환 값(예측값과 실제값의 차이)이 작아지는 방향성을 가지고 w 파라미터를 지속해서 보정해 나감. → 오류 값이 더이상 작아지지 않으면 그 오류 값을 최소 비용으로 판단하고, 그 때 w 값을 최적 파라미터로 반환 **Gradient = 원래 함수가 가장 빠르게 증가하는 방향 → 최솟값 구하려면 - 붙이면 됨. 이 비용함수를 최소화 하는 w0과 w1의 값은, 두 개의 w파라미터인 w0과 w1 각 변수에 순차적으..
목차 1. 회귀 소개 2. 단순 선형 회귀를 통한 회귀 이해 1. 회귀 소개 = 여러 개의 독립변수와 한 개의 종속변수 간의 상관관계를 모델링하는 기법 독립변수 X = 피처 다른 변수에 영향 받지 않고 독립적으로 변화하는 수. 입력변수, 설명변수라고도 함. 종속변수 Y = 결정값 독립변수의 영향을 받아 값이 변화하는 수로 분석의 대상이 되는 변수를 의미. 반응변수, 출력변수라고도 함. 회귀변수 W0, W1 독립변수의 값에 영향을 미치는 회귀계수 잔차 실제 값과 회귀 모델의 차이에 따른 오류값. → 최적의 회귀 모델을 만든다는 건, 바로 전체 데이터의 잔차 합이 최소가 되는 모델을 만든다는 것. 오류 값 합이 최소가 될 수 있는 최적의 회귀계수를 찾는다. ⇒ 주어진 피처와 결정 값 데이터 기반에서 학습을 ..