데이터 로드 이번 포스팅에는 개인적으로 맛있게 먹었던 일본식 돈까스 음식점들의 리뷰를 보고, 식당에 방문한 사람들과 나의 생각은 유사한지 확인해보았다. 먼저, 네이버 플레이스에서 3가지 식당의 방문자 리뷰를 크롤링했다. 아래의 사진은 부산대 인근의 "톤쇼우" 네이버 플레이스이다. 톤쇼우외에도 "최강금 돈까스"와 "카와카츠 합정점"의 리뷰도 동일한 방식으로 가져왔다. 결과는 다음과 같다. 톤쇼우의 네이버 방문자 리뷰 2,122개를 가져왔으며, 사용자 닉네임, 리뷰 내용, 작성 날짜, 방문 횟수 4개의 column으로 구성했다. 사용자 이름은 개인정보이므로 masking 처리했다. 이제, KNIME으로 전처리를 진행해보자. 데이터 전처리 데이터 분석 플랫폼 KNIME는 전처리 및 시각화, 분석을 위한 다양한..
NLP
이번 포스팅에서는 다양한 방법을 활용하여 주식회사 오뚜기의 주식 종가와 거래량에 영향을 미치는 키워드를 찾아내는 실험을 진행해보았다. 이전에는 주식 선행연구에 대한 분석과 분산투자 플랫폼 설계에 관한 내용을 다루었다. 이번에는 특정 기간 동안 오뚜기 주식의 종가가 평균에 비해 크게 벗어나는 날이 언제인지를 파악하고, 그 날짜에 어떤 기사들이 발행되었는지를 살펴보았다. 먼저, 2023년 1월부터 10월까지의 오뚜기 종가를 확인해보자. 2023년 6월부터 7월 사이 급격하게 주가가 감소했음을 확인했다. 이제 종가와 거래량이 다른 날짜 대비 많이 변화한 날을 확인해보자. KNIME&Python으로 전처리를 진행하고, 분석은 Python으로 실시했다. 비교를 위해 기간 내 종가와 거래량을 차분하고, z-scor..
이번 포스팅에서는 최근 세계적으로 떠오르고 있는 chatgpt와 같은 LLM에 대한 리더보드(Leader Board)들과 리더보드에 포함된 벤치마크들에 대해 정리해보았다. 특히 Dacon, Kaggle과 같은 대회에서 NLP 관련 공모전에 참여하려면 반드시 정해진 metric에서 성능이 제일 잘 나올 수 있는 pre-trained model을 사용해야 한다. 먼저, 리더보드와 벤치마크가 무엇인지 부터 확인해보고, 개별 벤치마크들을 살펴보자. 리더보드(Leader Board) : 리더보드는 특정 벤치마크에서 가장 높은 성능을 보인 모델들의 순위를 의미한다. 주로 연구자들이 자신들의 모델이 얼마나 잘 수행되는지 비교하고 평가하는 데 사용하며, 각 모델의 성능은 특정 벤치마크에서 얻은 점수 혹은 metric으..
토큰화(Tokenization)은 문장을 토큰 시퀀스로 나누는 과정을 의미한다. 수행 대상에 따라 문자, 단어, 서브워드의 세 가지 방법이 있는데, 각 토큰화 방법의 장단점을 살펴보자. 그 전에, 토큰화가 무엇인지 부터 알아야 한다. 토큰화(Tokenization) 트랜스포머(Transformers) 모델은 토큰 시퀀스를 입력 받으므로, 문장에 토큰화를 수행해야한다. 여기서 토큰 시퀀스란, 텍스트 데이터가 토큰화 과정을 거쳐 나누어진 개별 토큰들의 순서를 유지한 리스트나 배열을 의미한다. 예를 들어, "I love you" 라는 문장이 있다면, 이 문장을 단어 단위로 토큰화하면 ["I", "love", "you"] 라는 토큰 시퀀스가 생성된다. 여기서 각각의 단어가 하나의 '토큰(Token)' 이고, 이..