Python/Pandas

[Python] Pandas : 통계 관련 함수

다애루 2021. 4. 16. 11:50

pandas에는 다양한 함수들이 내정되어 있다.

데이터를 분석할 때 사용하는 통계 함수 몇가지를 알아보자.

 


↓ 예제 설명을 위해 사용한 DataFrame 

 


1. sum : 합을 계산

 

행의 평균을 구할 땐 axis=1 

열의 평균을 구할 땐 axis=0 으로 적는다.

이 때 axis의 default값은 '0'이다.

 

ex) 과목별 합계를 구하는 경우

total_score = data.sum(axis=1)
total_score

 

ex2) 합계를 구해서 컬럼으로 추가하는 경우

 

 


2. mean : 평균을 계산

 

ex)  과목별 평균을 계산해서 컬럼으로 추가

data['평균'] = data.loc[:, :'4반'].mean(axis=1)
data

 

ex) 평균을 계산한 값을 행에 추가하는 경우

data.loc['반평균'] = data.loc[:'Web'].mean(axis=0)
data

 


3. value_counts()  :  Series에서 value가 몇 개 있는지 세어주는 함수

 

ex ) 데이터의 합계가 저장된 컬럼의 값을 세어주는 경우

total_score= data.sum(axis=1)
total_score.value_counts()


4. min, max  : 전체 인덱스의 최솟값과 최댓값을 반환

 

ex) 열에서 가장 작은 값을 구하는 경우

data.min(axis=0)

 

ex) 행에서 가장 큰 값을 구하는 경우

data.max(axis=1)

 

 

ex) 열에서 가장 큰 값을 구하는 경우

data.max(axis=0)

 

ex) 과목별 가장 큰 값을 구하는 경우 (loc, max 함수 이용)

maxArr = data.loc[:'Web', :'4반'].max(axis=1)
maxArr