시계열 데이터
- 일정한 시간동안 수집 된 일련의 순차적으로 정해진 데이터 셋의 집합
- 시간에 관해 순차적으로 순서가 연결되어 있고, 연속되는 관측치는 서로 상관관계를 가지고 있음
- 가장 대표적인 시계열 데이터는 주식 데이터!
목적
- 시계열이 가지고 있는 법칙성을 발견하여 모형화하고, 추정된 모형을 통해 미래의 값을 forecasting(예측) 하는 것!
구성요소
- 추세 (trend)
- 장기적으로 증가하거나, 감소하는 경향성이 존재하는 것을 의미
- 부드럽고 일반적 또는 장기적 경향으로 전체적인 추세는 상향, 하향 또는 안정
- 구간이 짧으면 다른 변동을 보여줄 수 있음
- 인구, 농업 생산, 출생 및 사망자 수, 산업 또는 공장 수 등등 ...
- 계절성
- 계절적 요인의 영향을 받아 1년 혹은 일정 기간 안에 반복적으로 나타나는 패턴을 의미
- 자연 조건, 사회적 관습 혹은 제도 등의 영향을 받아 계절적인 차이를 나타냄
(기후 조건은 계절 변화에 중요한 역할) - 주기적인 패턴을 가지고 반복적으로 나타나는 주기 변동
- 주로 분기별, 월별 자료에서 나타남
- 농작물의 생산량, 여름/겨울철 냉방기기 판매량
- 순환 (cycle vatiation)
- 1년 이상 지속되는 시계열의 변동을 순환이라고 함
- 기후 조건, 사회적 관습 등과 같은 계절 변동을 설명되지 않는 장기적인 주기 변동
- Business Cycle이라고 불리기도 함
- 순환 변동과 계절 변동을 헷갈리지 말자!
- 불규칙 변동요인 (random or irregular movements)
- 사전적으로 예상할 수 없는 특수한 사건에 의해 야기되는 변동
(자연재해, 파업 등) - 설명할 수 없는 요인에 의해 발생되는 우연 변동
(시계열 데이터가 랜덤한 것인지 확인할 필요가 있음) - 예측이 불가능하고 제어할 수 없음
- 사전적으로 예상할 수 없는 특수한 사건에 의해 야기되는 변동
시계열 구성요소 간의 구성 (Composition)
시계열 데이터의 4가지 구성요소를 통해 단일 시계열로 구성할 수도 있고, 가법/승법 모형으로 구성이 가능
- 가법 모형 (addictive model) : 구성요소 간 독립적이라고 가정 후 각 구성요소를 더하는 모형
- 승법 모형 (multiplicative model) : 구성요소 간 독립적이지 않고 상호작용을 한다는 가정하에 구성요소 간에 곱하는 모형
시계열 데이터의 특성
- 규칙성을 가지는 패턴
- 자기상관성 (autocorrelativeness) : 이전의 결과와 이후의 결과 사이에서 발생하는 상관성
- 이동평균현상 (moving avergate) : 이전에 생긴 불규칙한 사건이 이후의 결과에 편향성을 초래하는 현상
- 불규칙한 패턴
- 평균이 0이고 일정한 분산을 가진 정규분포에서 추출된 임의의 수치라고 가정
- 일반적으로 whtie noise라고 부름
- 시계열 추세 및 계절성 성분을 가지고 있으며 시계열 분석 시에는 이를 정상 과정 신호와 분리할 필요가 있음
-> 회귀 분석을 사용해 성분을 분리하는 방법을 설명 가능- 정상 과정 (stationary process) : 시간이 지나도 신호의 확률적 특성이 그래도 유지되는 확률 과정
- 대부분의 시계열 분석은 정상 과정 분석 방법을 기반으로 함
- 대표적인 모형은 백색 잡음 (white noise)과 ARMA (auto regressive moving average)가 있음
- 비정상 과정 (nonstationary process) - 시간이 지나면서 기댓값의 수준이나 분산이 커지는 등 시계열의 특성이 변화하는 확률 과정
- 대표적인 모형은 ARIMA (auto regressive integrated moiving average) 모형이 있음
- 이 외에도 ADF 검정 등의 단위근 검정 (unit root test)를 사용하여 모형의 적분 차수 (integration order)를 결정하는 법이 있음
- 정상 과정 (stationary process) : 시간이 지나도 신호의 확률적 특성이 그래도 유지되는 확률 과정
- 불규칙성을 띄는 시계열 데이터에 규칙성을 부여하는 방법으로 AR, MR, ARMR, ARIMA 모델 등을 이용해 미래를 예측하는 방법이 일반적이었지만, 해당 방법들은 선형 통계적인 방법
728x90