이번 포스팅에서는 Python의 핵심 library인 Pandas를 알아보자. Pandas의 핵심은 'DataFrame' 이라는 데이터 구조에 있다. Dataframe은 행과 열로 이루어진 테이블 형태의 데이터 구조로, 각 열은 서로 다른 데이터 타입(정수, 실수, 문자열 등)을 가질 수 있다. 이를 통해 우리가 실제 데이터 분석 과정에서 자주 등장하는 복잡한 형태의 데이터를 쉽게 다룰 수 있다. Pandas는 여러가지 기능을 제공하지만, 대표적으로 다음과 같은 기능을 사용한다. 데이터의 로딩, 저장 : 다양한 파일 형식(csv, excel, DB 등)과의 데이터 입출력을 지원한다.데이터 정제 및 준비 : 결측치 처리, 데이터 형 변환, 필터링 등 데이터를 분석하기 전에 필요한 다양한 전처리를 수행데이터..
python
지난 포스팅에서 Python의 기초가 되는 변수 선언부터, 함수와 메서드의 차이까지 알아보았다. 이번 포스팅에서는 우리가 가장 많이 사용할 컨테이너 자료형에 대해 알아보자. 컨테이너 자료형이란 여러 값을 묶어서 갖는 자료형으로, list, tuple, set, Dictionary가 여기에 해당한다. 먼저, 가장 많이 사용되는 list에 대해 정리해보았다. list(리스트)리스트는 여러 값을 묶어서 갖는 컨테이너 자료형으로, 대괄호([ ]) 안에 콤마로 구분한 값을 나열하여 생성한다. 리스트의 요소로는 어떤 데이터도 올 수 있으며, 리스트 자체도 요소가 될 수 있다.1. 리스트 생성비어있는 리스트를 만들 수도 있고, 같은 자료형이나 여러 자료형의 데이터를 요소로 갖는 리스트를 만들 수 있다. 또한, 리스트..
KNIME에서 python을 사용할 수 있지만, 사용에 앞서 몇 가지 설정해야할 사항들이 있다. 순서대로 알아보도록 하자. Anaconda 설치 Anaconda는 데이터 분석 및 ML에 사용되는 workflow로, KNIME에서 python 가상환경을 만들기 위해 사용된다. 혹시 설치가 되어 있지 않으면, https://www.anaconda.com/download 에서 운영체제에 맞게 설치를 진행하면 된다. 설치가 끝났으면, KNIME을 실행하고 왼쪽 상단의 File -> Preferences로 들어간다. KNIME을 누르면 Conda가 보이는데, 여기서 사전에 설치한 Anaconda의 directory를 설정하고 버전에 이상이 없는지 확인한다. 만약 오류가 있다면, version 정보가 아닌 erro..
Daily Leads and Partners date_id 및 make_name마다 고유한 lead_id 및 partner_id의 개수를 구하시오. python print(DailySales.groupby(['date_id', 'make_name']).nunique().reset_index()) group by로 id, 이름별로 그룹핑 후, nunique()으로 고유한 행의 개수 출력 SQL select date(date_id) as date_id, make_name, count(distinct lead_id) as unique_leads, count(distinct partner_id) as unique_partners from DailySales group by date_id, make_name di..