pandas ?
pandas는 파이썬에서 가장 널리 사용되는 데이터 분석과 조작을 위한 라이브러리이다.
numpy 기반의 자료를 나타내는 구조로서, 데이터 분석을 위한 효율적인 데이터 구조를 제공한다.
데이터를 분석하기 위해서는 먼저 데이터가 필요하다.
여러 소스로부터 수집하는 데이터는 형태와 속성이 다양하기 때문에
컴퓨터가 이해할 수 있으면서도 동일 형식을 갖는 구조로 통합해야 한다.
이를 위해서 1차원 배열 형태의 데이터 구조인 Seriess,
2차원 배열 형태의 데이터 구조인 Data Frame 으로 구조화된 데이터 형식을 제공한다.
라이브러리를 추가하는 방법은 다음과 같다.
데이터 분석 라이브러리를 import하는 코드로서 pandas 라이브러리는 보통 pd 로 축약해서 사용한다.
import pandas as pd
pandas 의 특징
- 데이터 프레임은 엑셀의 스프레드시트와 유사한 형태이며 데이터를 쉽게 처리할 수 있다.
- 수치형 테이블과 시계열 데이터를 조작하고 운영하기 위한 데이터를 제공한다.
- 누락된 데이터를 유연하게 처리할 수 있는 기능이 있다.
- SQL 같은 일반 데이터베이스처럼 데이터를 합치고 관계연산을 수행하는 기능이 있다.
- 시계열 데이터와 비시계열 데이터를 함께 다룰 수 있는 통합 자료 구조이다.
# 사계열 데이터
시간별로 구성된 값 집합을 의미. 예로는 센서 데이터, 주가, 애플리케이션 원격 분석 데이터 등이 있다.
시계열 데이터는 기록 추세, 실시간 경고 또는 예측 모델링을 위해 분석할 수 있다.
일반적으로 시간 순서대로 도착하며, 데이터베이스에 대한 업데이트보다는 삽입으로 처리된다.
따라서 시간에 따라 변경 내용이 측정되므로 역방향으로 조회하고 향후 변경을 예측할 수 있다.
pandas 는 내장 라이브러리가 아니므로 원래 별도로 설치해야 하지만,
아나콘다 배포판을 사용하는 경우 내장되어 있어 따로 설치할 필요 없다.
만약 파이썬 IDLE를 사용하는 경우 명령 프롬프트에서 ‘pip install’ 옆에
설치하고 싶은 라이브러리 이름을 입력하여 필요한 라이브러리 설치할 수 있다.
pandas 의 자료형 Series & DataFrame
1. Series
1 ) Series 의 특징
- 시트의 열 1개를 의미
- 1차원 배열 형태의 데이터 구조를 사용한다.
- 인덱스와 값(value)이 1:1 대응을 하는 형태로서 Dictionary와 비슷하다.
- Dictionary는 키를 알면 값을 알 수 있는데, Series는 인덱스를 알면 그 값을 알 수 있다.
2 ) Sereis 생성
(1) series 생성자 안에 리스트를 담는 방법
data = pd.Series([123,456,789], index=['광주', '서울', '부산'])
(2) Deictionary 를 통해 생성
dic = {'전주KCC' : 1, 'DB프로미' : '2', '부산KT' : 3}
df = pd.Series(dic)
2. DataFrame
1 ) DataFrame 의 특징
- 데이터 프레임은 행과 열로 이루어진 표로서, 엑셀에서 볼 수 있는 시트(Sheet)와 동일한 개념이다.
- 2차원 배열 형태의 데이터 구조이며, 행과 열을 통해 데이터를 구분한다.
- 행을 index(인덱스)리고 부르고, 열은 column(컬럼)이라고 부른다.
- 서로 다른 종류의 자료형 - 숫자, 문자열, 논리형(True/False)으로 저장한다.
- 데이터 프레임을 이용하면 각 열(칼럼)에 있는 값을 편하게 쓸 수 있다.
- array 배열로 이루어져 있어 연산이 가능하다.
- 경우에 따라 DataFrame은 df로 축약하여 사용
- ex) 평균 나이를 구하는 경우, 성적이 상위 20%인 사람을 구할 때
2 ) DataFrame 생성
(1) Dictionary 객체로 DataFrame 생성
data = {'2015' : }{'2015' : [9904312,3448737,2890451,2466052], '2010' : [9631482,3393191,2632035,2431774]}
ind = ['서울', '대전', '대구', '광주']
df = pd.DataFrame(data, index=ind)
(2) list 객체로 DataFrame 생성
data = [[9904312,3448737,2890451,2466052],
[9631482,3393191,2632035,2431774]]
col = ['서울', '대전', '대구', '광주']
df2 = pd.DataFrame(data, columns=col)
프로그래밍 공부를 위해 여러 자료들을 토대로 작성한 기록입니다.
개인 공부에만 사용해주시고, 상업적인 활용과 재배포를 금지합니다.
'Python > Pandas' 카테고리의 다른 글
[Python] Pandas : DataFrame (loc 인덱서) (0) | 2021.04.19 |
---|---|
[Python] Pandas : DataFrame (iloc 인덱서) (0) | 2021.04.19 |
[Python] Pandas : DataFrame 병합할 때 사용하는 함수 (0) | 2021.04.18 |
[Python] Pandas : csv 파일 불러오기 (0) | 2021.04.17 |
[Python] Pandas : 통계 관련 함수 (0) | 2021.04.16 |