이번 포스팅에서는 코스피 방향 예측 프로젝트를 진행한 이후, 직접 처음부터 분석을 기획해보고 아이디어를 실현했던 제1회 KRX 금융 빅데이터 활용 아이디어 경진대회에 대해 포스팅 하려고 한다.
앞서 몇 주간 선행 연구 논문을 기반으로 금융 도메인 지식과 기계학습 이론에 대해 모르는 내용을 탐색해보고, python과 KNIME로 구현을 시도하면서 부족한점을 확인할 수 있었다. 첫 프로젝트 경험을 기반으로, 개인 프로젝트를 1주일 마다 서로 공유하던 학부연구생들과 함께 금융 데이터와 기계학습 모델을 모두 활용할 수 있는 공모전을 찾던 도중 Dacon에서 주관하고, 한국거래소(KRX)에서 주최하는 경진대회에 참여하게 되었다.
분석 정의


금융 빅데이터를 분석하기 위해 문제를 명확하게 정의해보았다. 2020년 코로나 19가 유행한 뒤로, 대다수의 개인들은 집에서 보내는 시간이 급격하게 증가하였다. 이로 인해 넷플릭스와 같은 OTT 가입자 증가, 개인 컴퓨터 구매 증가, 다수의 상권 침체 등 다양한 사회적 변화가 발생했다. 그 중, 사람들의 관심도가 급격하게 증가한 것이 바로 주식을 활용한 개인 투자이다. 많은 개인들이 자본을 투자해서 이득을 볼려고하지만, 처음 투자를 시작하고 실제 개인이 활용할 수 있는 정보는 용어를 알 수 없는 경제 뉴스 혹은 인터넷에 돌아다니는 출처가 불분명한 정보가 대다수이다. 그로 인해, 일반적인 개인 투자자들은 주식 투자에 대한 정보가 없는 상태로 무작정 투자를 시작했다가 손해를 보고 어려움을 겪는 경우를 흔하게 찾아볼 수 있었다. 또한, 2022년 상반기부터 지속적으로 코스피가 감소하는 추세를 보이면서 이미 투자를 진행하고 있는 사람들이 막심한 손해를 보거나 기대 이하의 수익으로 매도하는 경우도 상당수 존재했다.
또한, 주식 관련 선행연구도 탐색했다. 11편의 논문을 분석한 결과, 3가지의 중요 포인트를 발견했다.
- 투자자의 행태 : 투자자들은 코로나 19 이후 발생한 트렌드를 따라가 무작정 투자하는 경우가 많았다. 이들 중 다수가 손해를 봤으며, 특히 이러한 손해를 감당하기 위해 빚을 내고 투자를 감행하는 개인 투자자도 있다.
- 뉴스 민감도 : 주식시장은 경제 뉴스와 상당히 밀접한 관계가 있으며, 특히 국내 주식시장 투자자들은 부정적인 뉴스에 민감한 경향을 보인다.
- 분산 투자의 효과 : 다양한 종목에 투자를 분산하여 특정 종목의 부진이 전체 투자에 미치는 영향을 줄이고, 기간 내 추세가 서로 비례하거나 반비례하는 종목에 함께 투자하여 수익을 늘리거나 손해를 상쇄한다.
우리는 이러한 문제에 주목해서, 개인 투자자의 입장에서 필요한 정보를 제공해주면서 분산 투자의 방안을 제시해주는 플랫폼 '크로와상'을 기획하였다. 플랫폼에서는 다양한 정보들을 취합하고, 이를 사용자의 관심사에 맞게 제공한다. 이로 인해 투자를 진행하는 데 어려움을 겪는 투자자들의 수익을 기대한다. 또한, 정보를 가지고 있는 투자자도 본인이 알고 있는 정보와 플랫폼을 통해 접한 정보를 효율적으로 활용할 수 있어 높은 만족도를 예상하였다.
데이터 수집


데이터는 KRX에서 대회를 위해 제공해준 주식 일별 시세정보를 활용했다. 추가적으로, 선행 연구 및 경제 뉴스에서 다수의 투자자들이 뉴스를 신뢰하는 것을 파악했다. 따라서, 네이버 금융 뉴스를 웹크롤링을 통해 가져와 지표를 제작하였다.
데이터 전처리 및 방법론
데이터 준비 : Dacon 제공 데이터 일별시세정보 - 2021년 1,2,3월 KOSPI(유가증권), KOSDAQ 데이터를 병합
- 기간 내 중간에 상장된 종목 제거
- 거래 정지 종목, 관리 종목, 불성실 여부( Y ) 종목 제거
- 우선주, 동전주 ( 1000원 미만 )인 종목 제거
- 거래량이 0인 종목 제거
- 종목별 샤프지수와 1일 수익률을 구함. 샤프지수는 수익률 - 무위험수익률 / 수익률의 표준편차. 여기서 무위험 수익률 은 기간 내 기준금리로 설정.
상관관계 분석 : 기간별 수익률 및 섹터 간 관계 정보
- '1일 수익률', '종가', '기간 내 수익률', '샤프지수', '종목별 샤프지수 평균' 열 추출
- 삼성전자보다 수익률과 샤프지수가 높은 종목 선정
- 수익률에 관한 종목 간 상관관계 분석
- 3~5 과정을 3개월, 2주 기간 각각으로 진행
- 섹터 간 상관관계 분석
기사 단어 빈도 분석 : 단어 기반 종목 점수화
- 네이버 뉴스 크롤링
- 자연어 처리
- 일별 단어 빈도, 등락율 추출
- 상승장/하락장 점수 구하기
- 기간내 단어별 점수 산출, 정규화
분석 결과 - 상관분석


삼성전자 보통주와 비교해서 양의 상관계수가 높은 나노(0.83)의 실제 일별 수익률을 비교해보면, 어느정도 비슷한 추세를 따라가고 있음을 확인할 수 있다.

동일한 기간에서 삼성전자 보통주와 음의 상관계수가 높은 셀리드(-0.72)는 서로 반대되는 추세를 보이고 있음을 확인할 수 있다. 두 종목 모두 삼성전자보다 기간 내 수익률, 샤프지수가 높은 종목들이므로 상관계수에 대한 정보를 얻은 후 종목 선정을 한다면, 분산투자의 리스크를 줄일 수 있다.
분석 결과 - 기사분석

2021년 3월 24일부터 1주일간 삼성전자 보통주의 종가 및 기사 점수화를 비교한 그래프이다. 약간의 차이가 있지만, 상관 계수는 약 0.98로 상당히 유사한 흐름을 보이고 있음을 확인할 수 있다. t 시점의 종가를 위해 t-1일의 기사를 점수화 했기 때문에 시차에 맞춰서 기사 점수를 1일씩 뒤로 shift 시켜서 결과를 도출하였다.
플랫폼 예시

가장 대중적으로 익숙한 종목인 삼성전자를 기준으로, 기간 별(2주, 3개월) 삼성전자와 타 종목 간의 상관관계를 예시로 사용하였다. 상관분석에서는 정제된 수익률 및 샤프지수를 활용하였는데, 분산 투자를 위해서는 수익률도 중요하지만 안정성 역시 고려되어야한다. 수익률이 같은 종목이라면, 변동성이 더 낮은 상품이 투자에 유리하기 때문에 사용자가 특정 종목 A를 선택했을 때 A보다 수익률이 같거나 높으면서 샤프지수도 높은 종목들을 우선적으로 선별하였다. 선별된 종목들의 수익률과 A 종목의 수익률의 상관관계를 분석하여, 직관적으로 종목과 종목 간 어떤 관계에 놓여있는지 이용자 스스로 판단할 수 있도록 설계하였다.

투자자들에게 객관적인 보조 지표를 추가로 제공하기 위해, 특정 기간 내 네이버 뉴스 기사 단어들의 빈도를 분석하고 종목에 대한 점수를 부여했다. 종목의 수익률과 관계없는 언급 빈도가 높은 단어와 무의미하게 반복되는 단어를 처리하기 위해 불용어 처리 및 기간 내 일자별 단어 빈도수를 구하고, 평균 미만으로 언급된 일자의 단어 빈도수는 0으로 설정하였다. 점수는 특정 종목의 일별 수익률을 기준으로, 주가가 상승했을 때는 단어 빈도에 +를, 반대의 경우는 -를 부여하여 기사/일별 점수를 추출하였다. 이를 통해 이용자는 일자마다 종목 관련 기사를 한 눈에 확인할 수 있고, 다른 일자와 점수를 비교하여 투자의 결정에 활용할 수 있다. 또한, 특정 단어가 그 종목의 주가에 어떤 영향을 미치는지 판단할 수 있다.
프로젝트를 통해 많은 것을 배울 수 있었다. 먼저, 데이터를 기반으로 사용자의 관점에서 주제를 설계하고 아이디어를 구현하는 과정에서, 사용자 중심적인 사고 방식의 중요성을 깨달았다. 사용자의 입장에서 생각하고 그들의 필요와 요구사항에 초점을 맞추는 것이 결과적으로 분석을 기반으로 하는 제품이나 서비스가 성공적으로 받아들여지는 데 결정적인 역할을 한다는 것을 체감했다. 또한 이번 프로젝트는 팀원 간 협업의 가치도 이해하게 해주었다. 우리 팀 모두 각자가 가진 시각과 지식을 바탕으로 다양한 아이디어와 해결책을 제시하여, 이전에 단독으로 작업했던 경우라면 도달하지 못했던 새로운 방법론과 인사이트를 찾아낼 수 있었다고 생각한다. 아이디어 창출 과정에서 의견 충돌도 있었지만, 그런 상황마다 서로를 존중하고 상대방의 의견을 이해하려는 마음을 가지고 소통하려 노력했다. 이런 경험이 결국 우리 팀에 동기부여가 되어 유의미한 지표를 만들었다고 생각한다.
결론적으로, 이번 프로젝트는 사용자 중심 분석 및 팀원 간 협동 작업의 중요성에 대해 깊게 인식할 수 있는 소중한 경험이었다. 지금에 와서도, 당시의 경험과 배운 점들은 데이터 분석 정의 및 문제 해결 역량 개발에 큰 도움이 되었다는 생각이 든다. 전체적인 내용이 궁금하신 분들은, 아래의 링크를 들어가면 제안서 및 코드를 확인할 수 있다.
강패 앤 썬더 - 분산 투자 정보 제공 플랫폼 ' 크로와상 '
제1회 KRX 금융 빅데이터 활용 아이디어 경진대회
dacon.io
기사 출처
https://monthly.chosun.com/client/news/viw.asp?ctcd=B&nNewsNumb=202208100051
http://www.kyeongin.com/main/view.php?key=20220728010005041
선행 연구
김유신; 김남규; 정승렬. 뉴스와 주가: 빅데이터 감성분석을 통한 지능형 투자의사결정모형. 지능정보연구, 한국지능정보시스템학회, 2012, 18.2.
'Dacon' 카테고리의 다른 글
| [NLP] 뉴스 기사 레이블 복구 해커톤 (0) | 2023.09.25 |
|---|---|
| [금융] 월간 데이콘 신용카드 사용자 연체 예측 AI 경진대회 (0) | 2023.01.07 |