[시계열 분석] 정상성

 

시계열 데이터 분석의 기본 전제가 되는 중요한 특성인 정상성에 대해 알아보자.

 

정상성

- 시간의 흐름에 관계없이 데이터의 평균 및 분산이 일정함을 의미하며, 이런 특성은 시계열 분석의 기본 전제가 된다. (누적, 추세 ㄴㄴ)

 

- 시계열 데이터의 기본적인 특징은, 특정 시점의 값이 다른 시점의 값과 특정한 방식으로의 연관을 가지고 있다는 것. 즉, 각 값이 서로 완전히 독립적이지 않다는 것. 시계열 분석은 이런 서로 연관된 값들의 관계를 파악하는 것.

 

- 통계적 시계열 분석에서, 우리는 어떤 확률 과정을 따르는 시계열이 있다고 가정하고 그 통계적 과정으로부터 나타난 표본을 통해 그 통계적 과정을 알아내고자 한다. 하지만 이 과정을 정확히 알아내는건 매우 어려우며, 이를 해결하기 위해 강한 과정을 바탕에 깔아두어야 한다. 정상성이란 이런 강한 가정 중 하나이다.

 

즉,

정상 과정(정상성)은

확률변수 간의 확률 분포가 시간에 상관없이 일정한 성질을 띠고 있는 것이며, 시계열의 특징이 관측된 시간과 무관하다는 것이다.

 

 

시각적으로 확인해보면,

(a) 200 거래일 동안의 구글 주식 가격

(b) 200 거래일 동안의 구글 주식 가격의 일일 변동

(c) 미국의 연간 파업 수

(d) 미국에서 판매되는 새로운 단독 주택의 월별 판매액

(e) 미국에서 계란 12개의 연간 가격 (달러)

(f) 호주 빅토리아 주에서 매월 도살한 돼지의 전체 수

(g) 캐나다 북서부의 맥킨지 강 지역에서 연간 포획된 스라소니의 전체 수

(h) 호주 월별 맥주 생산량

(i) 호주 월별 전기 생산량

 

- 추세가 있으면 ? 관측 시점에 따라 특성이 바뀌기 때문에 비정상  -> (a),(c),(e),(f),(i)

- 계절성이 있으면 ? 관측 시점에 따라 특성이 변하기 때문에 비정상 -> (d), (h), (i)

- 분산이 증가하거나 감소하면 ? 비정상  -> (b) (일일 변동에 높게 솟아오르는 부분 있음 (분산이 안정적이지 못함)

 

정상적인 시계열은 (g)

(계절성을 가지고 있는 것 처럼 보이지만, 이 시계열은 다른 계절성을 가진 시계열들과 다르게 등락에 있어 고정된 기간 X)

 

 

  • 정상성의 종류

- 강 정상성 : 기저를 이루는 확률 분포가 언제나 같아야함 → 현실에서 찾아보기 매우 어려움

- 약 정상성 : 어느 시점(t)에 관측해도 확률 과정의 성질(E(Xt), Var(Xt))이 변하지 않음

 

"과거가 미래에 어떤 영향을 주는가"에 대한 해답을 찾아나가는 것이 시계열 분석의 목적임

 

 

  • 시계열 데이터의 구성요소
    • 추세(Trend) : 장기적으로 증가하거나, 감소하는 경향성이 존재함을 의미
    • 계절성(Seasonality) : 계절적 요인의 영향을 받아 1년, 혹은 일정 기간 안에 반복적으로 나타나는 패턴
    • 주기성(Cycle) : 정해지지 않은 빈도, 기간으로 일어나는 상승 혹은 하락
    → 시계열 분해는 이런 시계열의 구성요소들을 쉽게 파악할 수 있게 해줌

 

** 시계열 분해 하면, plot의 마지막줄 random.

즉 앞의 시계열 분해 후 남는 나머지를 의미하는데, 이 부분에 더이상 가진 정보가 없게(백색잡음이 되도록) 하는 것이 시계열 분석에서 매우 중요함. (정상성 가지는 데이터인듯)

+추세만을 연구하고 싶은 경우엔, 계절성을 제거한 데이터를 활용할수도!

 

→ 추세, 계절성 등이 있는 시계열은 관측 시점에 따라 특성이 바뀌기 때문에 정상적일 수 없음. + 분산이 증가하거나 감소하는 시계열 역시 정상적이라고 볼 순 없음.

 

 

  • p-value를 이용하여 정상성을 검증하는 방법

ADF 검정(단위근 검정), KPSS 검정을 사용하여 정상성 판단하면 되는데, 여기선 간단하게 p-value를 중심으로 판단하는 방법을 언급하겠음.

(p-value란? ; 유의확률, 귀무가설(의미 있는 차이나 관계가 없는 경우의 가설)이 관찰된 데이터의 통계치와 양립할 수 있는지를 0부터 1까지의 숫자로 나타냄. 0에 가까울수록 통계치가 귀무가설과 양립하는 정도가 낮음. 유의수준을 0.05로 이용했을 때 신뢰도는 0.95(95%)임.)

 

ex) 어떤 시계열이 정상적인지 알고 싶고, 약 95%의 신뢰도로 이를 검정해보고 싶어서 ADF 검정을 이용하였을 때,

출력값에 p-value가 0.06이 나왔다고 해보자.

 

ADF 검정의 귀무가설 '단위근이 존재한다' 였고, 단위근이 존재하면 비정상 시계열임.

95%의 신뢰도를 바탕으로 0.05라는 유의수준을 두었는데 출력값의 p-value는 이보다 높게 나왔기 때문에 우리는 귀무가설을 기각할 수 없음 => 이 시계열을 정상 시계열이 아님!!!!

 

 

  • 시계열을 정상적으로 만드는 방법 (추세와 계절성을 제거하기 위한 방법) 
    • 회귀분석 (regression approach)
    • 평활법(smoothing)
    • 차분(differencing)
    → 시계열 회귀분석과 평활법 이용하면, 우리는 나머지로서, 추세와 계절성이 제거된 시계열을 얻을 수 있음

( 시계열 분해 (Time Series Decomposition) 는 주로 평활법 이용하여 시계열 요소 (추세, 계절성)를 추출함. 그리고 정상 시계열을 나머지로 반환)

비정상 시계열의 경우 대부분 추세가 있거나, 계절성이 있거나 분산에 변동이 있다는 것이기 때문에 추세를 제거하거나 계절성을 제거하거나, 분산을 일정하게 만들면 시계열을 정상성을 띄는 것

((분산을 일정하게 만드는건 log transformation!!, 추세와 계절성을 제거하는 방법회귀분석, 평활법, 차분)

 

 

  • **차분(differencing) **

차분이란, 이어진 데이터의 차이를 구하는 것. 한 번 차이를 구하는 것을 1차 차분이라 하며, 1차 차분값을 다시 차분하는 것을 2차 차분이라 함. (데이터의 길이가 충분할 경우 여러번 수행될 수 있지만, 대부분의 경우엔 1차 차분만으로 정상적인 시계열이 만들어지며, 2차 이상의 차분을 할 경우 데이터에 적합한 모델의 설명력이 낮아지며, 데이터 소실이 커짐)

: t 시점의 값에서 t-1 시점의 값을 빼는 것 !! → 시계열 수준의 추세는 대부분 사라짐.

→ 이런 원리를 이용하여 계절성을 제거하기 위해 계절성 차분이 존재함.

여기서 m은 시차의 길이 -> 12일마다 계절성의 주기가 존재하는 경우 m=12

 

=> 대부분의 비정상적 시계열을 누적과정이기 때문에, 정상적 시계열이 누적되어 비정상적 시계열을 이루었기 때문에,

다시 누적된 것을 차분해줌으로써 그 이면의 정상적 과정을 볼 수 있는 것 !