이번 주 부터는 그동안 선행연구에 대해 탐구했던 부분을 기반으로 주제를 생각해보고 어떤 데이터로 어떤 분석을 해볼지 정해보자. 우리는 코스피 방향 예측을 위한 하이브리드 머신러닝 모델 논문을 토대로 코스피의 상승 혹은 하락 예측 모델 제작을 1차 목표로 정하였다. 그러나 기존의 선행연구와 단순히 일치시키는 대신, 다른 시점 데이터와 모델을 사용하여 결과를 비교해보고자 하는 생각이 들었다. 해당 논문은 모두 KOSPI 종가 Data를 사용하였으며, Train data는 2012-2017년, Validation data는 2018년, Test Data는 2019-2020년 Data를 활용하였다. 하지만, 주식시장은 수많은 변수가 존재하기 때문에 선행연구에서 사용했던 데이터와 동일한 데이터를 사용하는 것은 현재 시점에서는 무의미하다고 판단했다. 그리고, 첫 번째 포스팅에서도 언급했듯이 2020년 이후 코로나 19로 인해 주식 재테크가 급부상하면서 KOSPI가 급등하였기 때문에, 이전의 데이터로 Train을 시키면 다소 부정확한 결과가 도출될 수 있다는 생각이 들었다. 우선, 네이버 금융의 KOSPI Data를 가져오고, 시계열 분석을 위한 검정을 진행해보자. 프로젝트 진행 당시의 데이터를 그대로 python으로 가져와 보았다.

2014년부터 2022년 5월까지의 코스피 시가, 고가, 저가, 종가, 거래량 데이터를 DataFrame으로 가져온 것을 확인할 수 있었다. 데이터를 가져왔으니, 우리가 필요한 데이터만 추출하고 시계열 분석을 위한 검정을 진행해보자. 시계열 분석을 위해서는 여러가지 검증이 필요한데, 아래의 포스팅에 내용을 정리해보았다.
[시계열 분석] 분석을 위한 가설과 검증방법
시계열 데이터(Time-Series Data)는 시간의 순서(Sequence)에 따라 관찰되는 데이터로, 주가, 기상, 판매 등 다양한 분야에서 사용되고있다. 이러한 데이터를 분석하는 것이 시계열 분석이고, 분석을 통
hr1588.tistory.com
위의 포스팅에서 검증에 대한 설명을 진행했기 때문에 해당 내용은 생략하고, 바로 결과를 해석하도록 하겠다. 가장 먼저 자기상관에 대해 알아보기 위해, 코스피 종가 데이터로 ACF/PACF 그래프를 그려보았다.

ACF가 점차 감소하는 패턴을 보이고 있기 때문에, 이전 시점의 값이 현재 시점의 값에 영향을 미치고 있음을 확인할 수 있다. 즉, 코스피의 종가 데이터에 어느정도의 자기상관이 존재한다고 이해할 수 있다. PACF의 경우, 시차 1 이후 거의 0에 수렴하는 것을 확인할 수 있는데 이것은 해당 지점까지가 데이터의 패턴을 설명하는데 중요하게 작용함을 의미한다고 해석할 수 있다. 논문에서는 해당 데이터로 예측 모형을 제작하였지만, 우리는 다른 데이터와 방법론을 사용하고 싶어서 코스피의 전일 종가와 당일 종가의 변동률을 구한 뒤 ARIMA 예측 모형을 진행해보기로 결정하였다. 위와 동일하게 변동률의 자기상관을 확인해보자.

ACF와 PACF가 시차 0 이후에 0으로 수렴하는 패턴은 백색 잡음(white noise)의 특성을 나타낸다. 즉, 코스피의 변동률이 무작위로 움직이며, 시간에 따른 AutoCorrelation이 없음을 확인할 수 있다. 백색잡음은 예측할 수 있는 패턴이 없기 때문에, ARIMA 모델을 사용하는 것은 의미가 없다고 판단할 수 있다.
프로젝트 당시에는 기계학습 알고리즘과 통계에 대한 지식이 부족했기 때문에, 이러한 부분을 간과하고 코스피의 변동률에 로그화와 차분을 진행하여 ARIMA 모델로 예측을 수행하였다. 모델의 결과 역시 나오지 않거나 부정확한 경우만을 도출하였지만 이유를 알지 못했는데, 리뷰 과정에서 이전의 code를 구현해보면서 데이터 선택에 따른 시계열의 가설 검증에 대해 고려하지 못했다는 것을 알 수 있었다. 또한 이번에 논문의 방법론에 대해 리뷰하면서 당시 기계학습에 대한 이해도 역시 많이 부족했다는 것을 깨달았다.
당시 프로젝트의 실패를 바탕으로, 다음주 리뷰에는 단변량 시계열 모델인 ARIMA를 python에서 적용하기 위해 자기상관이 뚜렷하게 나타나는 코스피의 종가 데이터를 사용할 계획이다. 선행 연구와 동일한 데이터를 사용하므로, ARIMA 모델과 다른 모델 결과 지표의 비교가 가능하게 될 것 이다.
출처
황희수,「코스피 방향 예측을 위한 하이브리드 머신러닝 모델」,한국융합학회,한국융합학회논문지 제12권 제6호, 9-16 쪽(2021)
'데이터 분석 > 주식 선행연구 분석' 카테고리의 다른 글
| [주식] 기계학습을 활용한 주식 데이터 분석 - 7주차 (0) | 2023.08.19 |
|---|---|
| [주식] 기계학습을 활용한 주식 데이터 분석 - 6주차 (0) | 2023.08.14 |
| [주식] 기계학습을 활용한 주식 데이터 분석 - 4주차 (0) | 2023.08.06 |
| [주식] 기계학습을 활용한 주식 데이터 분석 - 3주차 (2) | 2023.08.05 |
| [주식] 기계학습을 활용한 주식 데이터 분석 - 2주차 (0) | 2023.08.04 |