본문 바로가기
Statistics/Time Series Analysis

TSA - 2. 일반회귀

by bents 2021. 1. 22.

#선형회귀 예측기법

  1. 회귀모델 가정 검정하기 - 잔차진단

    1) 필수가정

    : 오차평균=0, 오차자기상관성=0, 오차-예측변수 상관성=0 , 예측변수는 랜덤아닌 통제변인.

    2) 추가가정(for 예측구간)

    : 오차 등분산, 정규분포, --> 오차는 미지의 값이므로, 잔차로 가정을 검정한다.

    • [필수1]잔차는 항상 평균 0임.

    • [필수2]잔차 자기상관성(Breusch-Godfrey or Lagrange Multiplier 검정)
      : 어떤 특정한 순서까지 잔차에 자기상관이 없다는 결합 가설(joint hypothesis) 검증.
      : 회귀모델전용 자기상관성 검정임 (융박스검정은 보편적 자기상관 검정법)
      : ACF로 시각화
      *자기상관성을 제거하지 않은 unstationary 데이터에 regression하지 말것.
      *잔차의 독립성 검정/ Durbin Watson 검정

    • [필수3] 잔차와 예측변수의 상관성
      ; 등분산성 검정 (Brwon-Fosythe)

      : 산점도로 시각화 -> if not random -> 비선형 회귀(비선형 패턴), 변수추가(선형패턴)

    • [추가1] 정규성 검정 (Jarque-bera)
      : 히스토그램으로 시각화 -> if not normal -> 변환
      : -> if outliers -> 추가연구 OR 제거

    • [추가2] 잔차와 적합값의 상관성
      : 산점도로 시각화 -> if not random -> 종속변수변환, WLS적용

  2.  회귀모델 예측변수 만들기
    • 추세변수 : 시간 t **

    • 가변수(더미변수) : 범주형 자료, 이상치 여부, 계절성 자료(연월;분기), 휴일여부 *범주개수 -1개 만큼 변수만들기(원핫인코딩)

    • 개입변수 : 주기적 스파이크, 영구적 단계식 변화

    • 영업일수, 공휴일수

    • lagged value : 과거 독립변수값 (고급: 독립변수를 예측하는 회귀식 만들기 )

    • 푸리에변환변수 : 주기가 긴 계절성 자료(주;일시) --> 푸리에변환변수가지면 조화회귀라고 함.

  3.  회귀모델 만들기

    1) 예측변수 선택

    • 절대하지 말 것 : 산점도로 예측변수 효과 적은 변수 제거, p-value높은 변수 제거.

    • 추천방법 : 모델 적합도 평가를 통한 선택 , lagged 예측변수 추가

      • cv 변동에 큰 영향을 미치는 변수 선택

      • 부분집합 회귀모델 선택 ; stepwise selection 등

    2) 베타추정 : 최소제곱 추정 / 예측변수의 효과 추론inference / not for 예측

    3) 예측방법

    • 시나리오 가설 기획 -> 예측변수 조건별 예측결과의 비교

    • 동적회귀모델 적용

    4) 모델적합도(정확도) 평가

    • 필수사전작업 : MSE of cross validation(시점별로 검증반복)

    • 평가척도 [예측전용] MSE of CV > AIC > 수정된 AIC > BIC

      adjusted coefficient of determination - 단점/예측변수를 많이 선택함

      residual standard error(for 예측구간)

# 비선형회귀 예측기법

1) 변수변환 (x-y)

  • 로그-로그 : 변화율 대비 변화율

  • 선형-로그 : 변화량 대비 변화율. ( 지수추세 )

  • 로그-선형 : 변화율 대비 변화량

2) regression splines ; 기울기가 변하는 구간(knot)이 존재하는 회귀선 ; 부분구간마다 추세와 변동성이 크게 달라지기 때문에 필요함.

  • piecewise linear regression**

  • cubic regression splines

    • natural cubic smoothing splines : 과거적합을 손실하되, 예측력을 높이는 변형모델

# 예측변수간 관계/ 인과성, 상관성

  • 인과관계를 결정할 수 있으면, 종종 더 나은 모델이 가능. 단순예측모델 만든다면, 예측변수간 관계 무시가능. but 시나리오 예측과 '기여도 추론시' 문제가 생김.

  • 가변수의 함정 : 가변수는 범주형자료의 원핫인코딩 변수들이므로 다중상관성100%


*일반회귀의 모수최적화 방법 (오차최소제곱합)

  • OLS : 분산공분산행렬 --> 모두 같은 분산, 공분산 = 0

    • 이분산성이나 자기상관성이 너무 강할 때에는 GLS와 robust 추정

  • GLS : 분산공분산행렬 --> 서로 다른 분산, 공분산 !=0 (*Mahalanobis length)

    • WLS : 분산공분산행렬 --> 서로 다른 분산, 공분산= 0

    • FGLS (feasible)

'Statistics > Time Series Analysis' 카테고리의 다른 글

TSA - 4. 자기회귀  (0) 2021.01.22
TSA - 3. 패턴분해  (0) 2021.01.22
TSA - 1. 시각화 및 벤치마크 예측기법  (0) 2021.01.22
모수추정방법 /  (0) 2021.01.22
TSA - ARIMA + GARCH  (0) 2020.12.02