이번주에도 지난주에 이어 계속 선행연구를 탐색하였다.
1. 투자자별 거래정보와 머신러닝을 활용한 투자전략의 성과
해당 논문은 최근 인공지능의 급부상과 더불어 금융 분야에서도 AI 기반 자산관리 프로그램이 급속도로 도입되기 시작하였으며, 인공지능을 활용한 투자전략의 성과는 주가에 영향을 미치는 무수히 많은 변수들 중 어떤 입력 변수를 선택할 것인가에 달려있다고 소개하였다. 모델 구축을 위해 자기 조직화 지도(SOM)을 사용하여 외인/기관/개인 투자자별 거래량 및 일별 주가 수익률 자료를 20가지 경우로 clustering하고, 그룹화된 데이터를 오류 역전파 알고리즘에 사용할 수 있게 5일 간격으로 60일 연속 데이터의 변환 작업을 진행한 후 normalization을 사용한 data로 포트폴리오를 구성하였다.
자기 조직화 지도(Self-Organizing-Map) : 인공 신경망의 일종으로, 고차원 데이터를 저차원(보통 2차원) 공간에 표현하면서 데이터의 특정을 보존하려는 비지도 학습 모델.
군집화(clustering) : 데이터 마이닝의 기법으로, 유사한 특성을 가진 데이터 객체들을 동일한 그룹(군집)으로 묶는 과정을 의미한다. 비지도 학습에 속하며, 레이블이 없는 데이터에 대하 특성만을 사용해 그룹화를 수행
정규화(Normalization) : 데이터의 범위를 특정한 최소와 최대 값 사이로 조정하는 과정으로, 각 특성의 scale이 서로 다를 떄 이를 동일한 범위로 변환함으로써 알고리즘의 수렴을 빠르고 안정적으로 만들 수 있다. 대표적으로 Min-Max Scaling과 Z-score Normalization이 있다. 정규화는 중요한 개념이기 때문에, 추후 따로 포스팅하도록 하겠다.
2. 빅데이터를 활용한 인공지능 주식 예측 분석
해당 논문은 지난 주에 읽은 ‘빅데이터를 활용한 인공지능을 통한 주식 예측 분석 사례‘를 보다 다양한 관점으로 분석한 논문이다. 본문에서는 지속되는 저금리로 인해 개개인의 자산이 예금에서 주식 및 부동산으로 옮겨가고 있다는 사례를 들면서 빅데이터와 AI모형을 기반으로 한 인공지능을 활용한 주식 예측 프로그램을 소개하였다. 주가 예측 프로그램에서는 ANN(인공신경망), DNN(딥 러닝), K-NN(K-최근접 이웃 알고리즘), CNN(합성곱 신경망), RNN(순환 신경망), LSTM(장단기 메모리)를 사용하여 해당 방법들의 장단점을 판별해본 결과, 양방향 LSTM 순환 신경망을 이용했을 때 주가 예측률이 가장 높았다.
인공신경망(ANN) : 인공신경망은 사람의 뇌가 작동하는 방식을 모방한 알고리즘이며, 입력, 은닉, 출력 층으로 구성된다. 노드와 엣지로 연결되며, 각 연결에는 가중치가 존재한다. 복잡한 비선형 관계도 모델링할 수 있으며, 이미지/음성/자연어 등 다양한 분야에서 활용된다.
심층신경망(DNN) : DNN은 ANN의 확장형으로, ANN보다 더 많은 은닉층을 가지고 있어 복잡한 패턴을 학습할 수 있다. 깊은 구조로 복잡한 문제를 해결할 수 있어 고차원 데이터 분석 및 복잡한 이미지/음성 처리에 활용되지만, 깊이 들어갈수록 local minima 및 기울기 소실 등의 문제가 발생할 수 있고, 비용과 시간이 많이 소모된다.
K-최근접 이웃 알고리즘(K-NN) : K-NN은 분류나 회귀 문제를 해결하기 위한 알고리즘으로, 주어진 입력값과 가장 가까운 K개의 훈련 데이터를 찾아 예측에 활용한다. 간단하고 직관적이기 때문에, 추천 시스템 및 분류 문제 등에 사용할 수 있다.
합성곱 신경망(CNN) : CNN은 이미지나 비디오 처리에 특화된 신경망 구조로, 합성곱과 pooling, batch normalization layer로 구성되어 공간 정보를 유지하면서 특징을 추출한다. 특히 이미지 특징 추출에 탁월하여, 주로 이미지 분류/얼굴 인식/객체 탐지 등에서 사용된다.
순환 신경망(RNN) : RNN은 순차적인 데이터 처리에 특화된 신경망으로, 이전 시점의 출력이 현재 시점의 입력으로 연결되는 구조를 가지고 있다. 시계열 데이터나 자연어 처리에 적합하며, 우리가 할려는 주식 데이터 분석에서도 많이 사용되고 있다. 하지만 데이터가 뒤로 갈수록 은닉층의 과거의 정보가 마지막까지 전달되지 못하는 장기 의존성 문제가 발생한다는 한계가 존재한다.
장단기 메모리(LSTM) : LSTM은 RNN의 변형으로, 장기 의존성 문제를 해결하기 위해 고안되었다. 셀 상태를 추가로 가지고 있기 때문에 긴 시퀀스의 정보를 효과적으로 기억한다는 장점이 있다. 논문에서는 LSTM을 변형한 Bi-LSTM을 사용하였는데, 이는 시퀀스 데이터를 정방향과 역방향 모두로 처리하여 두 경로의 정보를 결합한 후, 출력층으로 전달하여 최종 예측을 수행한다.
GRU : GRU는 순환 신경망의 변형 중 하나로, LSTM과 유사한 역할을 수행하지만 구조가 더 간소화되어 있다. LSTM이 3개의 gate를 사용했다면 GRU는 2개의 gate를 사용해 파라미터 수가 적으므로, LSTM과 유사한 성능을 보이면서도 복잡성과 계산 비용을 줄였다는 장점이 있다.
3. 코스피 방향 예측을 위한 하이브리드 머신러닝 모델
해당 논문은 코스피에 연동된 ETF의 거래를 목적으로 코스피의 과거 종가 데이터를 활용하여 코스피의 일일 방향을 예측하는 머신러닝 모델을 제안한다. 모델은 단일 머신러닝 알고리즘을 적용하는 모델(MLP, SVM)과 다수의 알고리즘을 적용하는 앙상블 방식의 모델(RF, LGBM, XGB)을 사용해서 총 5개의 모델을 구현하고 서로 다른 모델의 예측 결과를 합산하는 하이브리드 머신러닝 모델을 제작한다. 시뮬레이션 결과를 참조하면 코스피의 상승과 하락 예측에 있어 특정 부분에서 더 정확한 모델이 존재했고, 낮은 정밀도를 보인 모델을 제외하고 하이브리드 예측 모델을 구현한 결과 개별 모델보다 개선된 예측 정밀도를 얻음을 확인하였다.
4. 향후 계획
몇 가지의 논문을 읽으면서 기계학습 용어에 대한 지식이 많이 부족함을 알 수 있었다. 필요한 부분은 계속 정리해 나갈 것이며, 논문에서 서로 다른 모델을 앙상블 시키는 부분이 인상깊었고, 이 부분에 대해 보다 자세히 알아가기 위해 다음 주 부터는 '코스피 방향 예측을 위한 하이브리드 머신러닝 모델' 논문을 세부적으로 읽어보고 정리해볼 계획이다.
출처
김경목, 김선웅, 최흥식,「투자자별 거래정보와 머신러닝을 활용한 투자전략의 성과」, 한국지능정보시스템학회, 지능정보연구 제27권 제1호, 65-82쪽(2021)
최훈, 「빅데이터를 활용한 인공지능 주식 예측 분석」, 한국정보통신학회, 한국정보통신학회논문지 제25권 제10호, 1435-1440쪽(2021)
황희수, 「코스피 방향 예측을 위한 하이브리드 머신러닝 모델」, 한국융합학회, 한국융합학회논문지 제12권 제6호, 9-16 쪽(2021)
'데이터 분석 > 주식 선행연구 분석' 카테고리의 다른 글
| [주식] 기계학습을 활용한 주식 데이터 분석 - 6주차 (0) | 2023.08.14 |
|---|---|
| [주식] 기계학습을 활용한 주식 데이터 분석 - 5주차 (0) | 2023.08.08 |
| [주식] 기계학습을 활용한 주식 데이터 분석 - 4주차 (0) | 2023.08.06 |
| [주식] 기계학습을 활용한 주식 데이터 분석 - 3주차 (2) | 2023.08.05 |
| [주식] 기계학습을 활용한 주식 데이터 분석 - 1주차 (0) | 2023.08.04 |