Python/Pandas 6

[Python] Pandas : DataFrame (loc 인덱서)

Pandas DataFrame에서 특정 행/열을 선택하는 방법은 여러가지가 있다. iloc indexer, loc indexer 두 가지 함수를 사용하는 방법으로 나눠진다. Indexer는 행과 열을 한번에 인덱싱하거나 슬라이싱 해주는 함수를 말한다. loc 인덱서는 실제 인덱스를 사용해서 데이터를 가지고 올 때 사용한다. 즉, label or 조건 표현으로 선택하는 방법이다. iloc 인덱서는 numpy의 array방식으로 행을 가지고 올 때 사용하는데, 간단하게 말해서 행 번호로 선택하는 방법이다. 이번 글에서는 loc 함수에 대해 알아보자! . l o c ( ) index label과 index를 사용해서 인덱싱 ex ) 행과 열의 label을 사용해서 인덱싱하는 경우 * 행 넘버와 다르게 마지막 ..

Python/Pandas 2021.04.19

[Python] Pandas : DataFrame (iloc 인덱서)

Pandas DataFrame에서 특정 행/열을 선택하는 방법은 여러가지가 있다. iloc indexer, loc indexer 두 가지 함수를 사용하는 방법으로 나눠진다. Indexer는 행과 열을 한번에 인덱싱하거나 슬라이싱 해주는 함수를 말한다.apache-tomcat-8.5.69 loc 인덱서는 실제 인덱스를 사용해서 데이터를 가지고 올 때 사용한다. 즉, label or 조건 표현으로 선택하는 방법이다. iloc 인덱서는 numpy의 array방식으로 행을 가지고 올 때 사용하는데, 간단하게 말해서 행 번호로 선택하는 방법이다. 이번 글에서는 iloc 함수에 대해 먼저 알아보자! .iloc 행번호(row number)로 선택하는 방법 행과 열을 숫자로 location을 나타내서 Selecting..

Python/Pandas 2021.04.19

[Python] Pandas : DataFrame 병합할 때 사용하는 함수

Pandas 라이브러리의 다양한 내장함수 중 DataFrame을 병합할 때 사용하는 함수에 대해 알아보자! 1. concat 물리적으로 이어주는 함수 axis=0 : 0이 기본 값 1 ) 다중 인덱싱 : keys 속성 이용 2 ) 인덱스 확인 : index 함수 사용 3 ) join 속성 사용 outer : 합집합, default값(기본값) inner : 교집합, 합치는 데이터들이 동일하게 가지고 있는 기준(인덱스)만 출력 공통적으로 가지고 있는 데이터만 출력 pd.concat([df1, df4], axis=1, join='outer') pd.concat([df1, df4], axis=1, join='inner') 4 ) ignore_index ingnore_index : 기존 인덱스를 무시하고 새로운 ..

Python/Pandas 2021.04.18

[Python] Pandas : csv 파일 불러오기

Pandas 라이브러리에서 csv 파일을 불러오는 함수를 알아보자. pandas를 이용해 csv 파일을 불러오기 위해서는 pandas를 먼저 import 해야한다. 일반적으로 pd라는 약어를 많이 사용하며, read_csv 라는 함수를 통해 csv 파일을 불러 올 수 있다. c s v ? CSV는 Comma Seperated Value의 약자로 몇 가지 필드를 쉼표(comma)로 구분한 텍스트 데이터 및 텍스트 파일이다. 확장자는 .csv 이며 MIME 형식은 text/csv 이다. 오래전부터 스프레드시트나 데이터베이스 소프트웨어에서 많이 사용되었고 세부적인 구현은 소프트웨어에 따라서 다르다. *예를 들면 아래와 같이 쓰여 있는 텍스트 파일을 말한다. 이름, 성별, 나이 김영민, 남자, 27 김영우, 남..

Python/Pandas 2021.04.17

[Python] Pandas : 통계 관련 함수

pandas에는 다양한 함수들이 내정되어 있다. 데이터를 분석할 때 사용하는 통계 함수 몇가지를 알아보자. ↓ 예제 설명을 위해 사용한 DataFrame 1. sum : 합을 계산 행의 평균을 구할 땐 axis=1 열의 평균을 구할 땐 axis=0 으로 적는다. 이 때 axis의 default값은 '0'이다. ex) 과목별 합계를 구하는 경우 total_score = data.sum(axis=1) total_score ex2) 합계를 구해서 컬럼으로 추가하는 경우 2. mean : 평균을 계산 ex) 과목별 평균을 계산해서 컬럼으로 추가 data['평균'] = data.loc[:, :'4반'].mean(axis=1) data ex) 평균을 계산한 값을 행에 추가하는 경우 data.loc['반평균'] = ..

Python/Pandas 2021.04.16

[Python] pandas 라이브러리 그게 뭔데?

pandas ? pandas는 파이썬에서 가장 널리 사용되는 데이터 분석과 조작을 위한 라이브러리이다. numpy 기반의 자료를 나타내는 구조로서, 데이터 분석을 위한 효율적인 데이터 구조를 제공한다. 데이터를 분석하기 위해서는 먼저 데이터가 필요하다. 여러 소스로부터 수집하는 데이터는 형태와 속성이 다양하기 때문에 컴퓨터가 이해할 수 있으면서도 동일 형식을 갖는 구조로 통합해야 한다. 이를 위해서 1차원 배열 형태의 데이터 구조인 Seriess, 2차원 배열 형태의 데이터 구조인 Data Frame 으로 구조화된 데이터 형식을 제공한다. 라이브러리를 추가하는 방법은 다음과 같다. 데이터 분석 라이브러리를 import하는 코드로서 pandas 라이브러리는 보통 pd 로 축약해서 사용한다. import p..

Python/Pandas 2021.04.15