파이썬 10

[MachineLearning] 지도 학습 - 회귀

머신러닝은 크게 세종류로 나눠진다. 지도 학습, 비지도 학습, 강화 학습 세 종류가 있으며 지도 학습은 분류와 회귀로 나눠진다. 이번 포스팅에서는 지도 학습의 회귀에 대해 알아보자. 회귀 연속적인 숫자를 예측하는 것을 말한다. 분류보다 회귀를 많이 사용하며, 오랜 기간 현대 통계학에서 발생되어 다양하게 이용되는 학문 분야이다. 선형 모델 (Linear Model) 데이터가 있을 때 가장 잘 설명할 수 있는 선을 찾는 방법 입력 특성에 대한 선형 함수(예측값)을 만들어 예측을 진행한다. 다양한 선형 모델이 존재한다. 분류와 회귀에 모두 사용 가능하다. 선 하나하나가 예측 값이 된다. 선형 함수 = 예측 값 회귀 계수 (W,b) w : 가중치(weight), 계수(coefficient) b : 편향(bias..

Machine Learning 2021.04.21

[Python] Pandas : DataFrame (loc 인덱서)

Pandas DataFrame에서 특정 행/열을 선택하는 방법은 여러가지가 있다. iloc indexer, loc indexer 두 가지 함수를 사용하는 방법으로 나눠진다. Indexer는 행과 열을 한번에 인덱싱하거나 슬라이싱 해주는 함수를 말한다. loc 인덱서는 실제 인덱스를 사용해서 데이터를 가지고 올 때 사용한다. 즉, label or 조건 표현으로 선택하는 방법이다. iloc 인덱서는 numpy의 array방식으로 행을 가지고 올 때 사용하는데, 간단하게 말해서 행 번호로 선택하는 방법이다. 이번 글에서는 loc 함수에 대해 알아보자! . l o c ( ) index label과 index를 사용해서 인덱싱 ex ) 행과 열의 label을 사용해서 인덱싱하는 경우 * 행 넘버와 다르게 마지막 ..

Python/Pandas 2021.04.19

[Python] Pandas : DataFrame (iloc 인덱서)

Pandas DataFrame에서 특정 행/열을 선택하는 방법은 여러가지가 있다. iloc indexer, loc indexer 두 가지 함수를 사용하는 방법으로 나눠진다. Indexer는 행과 열을 한번에 인덱싱하거나 슬라이싱 해주는 함수를 말한다.apache-tomcat-8.5.69 loc 인덱서는 실제 인덱스를 사용해서 데이터를 가지고 올 때 사용한다. 즉, label or 조건 표현으로 선택하는 방법이다. iloc 인덱서는 numpy의 array방식으로 행을 가지고 올 때 사용하는데, 간단하게 말해서 행 번호로 선택하는 방법이다. 이번 글에서는 iloc 함수에 대해 먼저 알아보자! .iloc 행번호(row number)로 선택하는 방법 행과 열을 숫자로 location을 나타내서 Selecting..

Python/Pandas 2021.04.19

[Python] Numpy : array 정의, 정보 확인하는 함수

numpy 의 다양한 내장함수 중에서 array를 정의하고, 해당 array에 대한 정보를 확인하는 함수를 알아보자! 1. 1차원 배열 (array) 정의 1) list를 생성이용해서 정의하는 방법 2) list를 array에 바로 담아주는 방법 2. 2차원 배열 생성 list2 = [[1,2,3],[4,5,6]] arr2 = np.array(list2) 3. array의 정보 확인 1) array의 형태(크기)를 확인 : shape 몇개의 데이터가 있는지, 몇 차원으로 존재하는지 등을 확인할 수 있다. arr2.shape 2) array의 자료형 확인 : dtype arr2.dtype 3) array 요소의 총 갯수 확인 : size arr2.size 4) array의 차원 확인 : ndim arr2...

Python/Numpy 2021.04.17

[Python] Numpy 그게 뭔데?

Python의 다양한 라이브러리 중 Numpy 라이브러리 에 대해 알아보자. Numpy를 간단하게 말하자면 배열과 행렬의 연산을 위한 함수를 제공하는 라이브러리이다. Numpy는 C언어로 구현된 파이썬 라이브러리로써, 고성능의 수치계산을 위해 제작되었다. 'Numerical Python'의 줄임말으로서 벡터 및 행렬 연산에 있어서 매우 편리한 기능을 제공한다. 데이터분석을 할 때 사용되는 라이브러리인 pandas, matplotlib의 기반으로 사용되기도 한다. numpy에서는 기본적으로 array라는 단위로 데이터를 관리하며 이에 대해 연산을 수행한다. 빠르고 효율적 벡터 산술 연산을 제공하는 다차원 배열 제공(ndarray 클래스)한다. 반복문 없이 전체 데이터 배열 연산이 가능한 표준 수학 함수를 ..

Python/Numpy 2021.04.17

[Python] Pandas : csv 파일 불러오기

Pandas 라이브러리에서 csv 파일을 불러오는 함수를 알아보자. pandas를 이용해 csv 파일을 불러오기 위해서는 pandas를 먼저 import 해야한다. 일반적으로 pd라는 약어를 많이 사용하며, read_csv 라는 함수를 통해 csv 파일을 불러 올 수 있다. c s v ? CSV는 Comma Seperated Value의 약자로 몇 가지 필드를 쉼표(comma)로 구분한 텍스트 데이터 및 텍스트 파일이다. 확장자는 .csv 이며 MIME 형식은 text/csv 이다. 오래전부터 스프레드시트나 데이터베이스 소프트웨어에서 많이 사용되었고 세부적인 구현은 소프트웨어에 따라서 다르다. *예를 들면 아래와 같이 쓰여 있는 텍스트 파일을 말한다. 이름, 성별, 나이 김영민, 남자, 27 김영우, 남..

Python/Pandas 2021.04.17

[Python] Pandas : 통계 관련 함수

pandas에는 다양한 함수들이 내정되어 있다. 데이터를 분석할 때 사용하는 통계 함수 몇가지를 알아보자. ↓ 예제 설명을 위해 사용한 DataFrame 1. sum : 합을 계산 행의 평균을 구할 땐 axis=1 열의 평균을 구할 땐 axis=0 으로 적는다. 이 때 axis의 default값은 '0'이다. ex) 과목별 합계를 구하는 경우 total_score = data.sum(axis=1) total_score ex2) 합계를 구해서 컬럼으로 추가하는 경우 2. mean : 평균을 계산 ex) 과목별 평균을 계산해서 컬럼으로 추가 data['평균'] = data.loc[:, :'4반'].mean(axis=1) data ex) 평균을 계산한 값을 행에 추가하는 경우 data.loc['반평균'] = ..

Python/Pandas 2021.04.16

[Python] Pandas : 행, 열의 정보를 확인하는 함수

Pandas의 다양한 내장 함수 중에서 행과 열의 정보를 확인할 때 사용하는 함수 몇 가지를 알아보자. * 각 함수별로 출력되는 값을 이미지로 함께 넣었으니 참고하기를 바란다. (df명은 임의로 작성한 것임) 1. dtypes : 열의 타입 정보 df.dtypes + Pandas 자료형 2. index : 행의 형태 정보 3. columns : 데이터프레임 열의 정보 4. values : 데이터프레임 행의 정보 4. 데이터프레임 열 값을 통해 인덱싱 df[['2015']] 5. 데이터프레임 두 개 이상의 컬럼 인덱싱 df[['2005','2015']] 6. 데이터프레임 인덱스를 통해 인덱싱 df[[0:2]] 7. 데이터프레임 인덱스 값을 통해 인덱싱 df[['서울':'광주']]

카테고리 없음 2021.04.16

[Python] pandas 라이브러리 그게 뭔데?

pandas ? pandas는 파이썬에서 가장 널리 사용되는 데이터 분석과 조작을 위한 라이브러리이다. numpy 기반의 자료를 나타내는 구조로서, 데이터 분석을 위한 효율적인 데이터 구조를 제공한다. 데이터를 분석하기 위해서는 먼저 데이터가 필요하다. 여러 소스로부터 수집하는 데이터는 형태와 속성이 다양하기 때문에 컴퓨터가 이해할 수 있으면서도 동일 형식을 갖는 구조로 통합해야 한다. 이를 위해서 1차원 배열 형태의 데이터 구조인 Seriess, 2차원 배열 형태의 데이터 구조인 Data Frame 으로 구조화된 데이터 형식을 제공한다. 라이브러리를 추가하는 방법은 다음과 같다. 데이터 분석 라이브러리를 import하는 코드로서 pandas 라이브러리는 보통 pd 로 축약해서 사용한다. import p..

Python/Pandas 2021.04.15

Python 그게 뭔데, 어떻게 하는 건데?

파이썬은 프로그래밍을 처음 접하는 사람도 쉽게 배울 수 있는 인터프리터 언어로서, 빠르게 프로그램을 개발할 수 있다는 장점이 있다. 효율적인 자료 구조들과 객체 지향 프로그래밍에 대해 간단하고도 효과적인 접근법을 제공한다. 또한 파이썬의 표준 라이브러리는 매우 광범위하며, 다양한 기능을 제공한다. 라이브러리에는 일상적인 프로그래밍에서 발생하는 많은 문제에 대한 표준적인 해결책을 제공하는 모듈(파이썬으로 작성)뿐만 아니라, 파일 I/O와 같은 시스템 기능에 액세스하는 내장 모듈들이 포함된다. + 'Python' 이라는 이름은 라는 BBC 프로그램에서 유래한 것이다. (파충류와 연관 없음!) Python의 공식 소개는 다음과 같다. 파이썬은 배우기 쉽고 강력한 프로그래밍 언어입니다. 파이썬은 효율적인 고수준..

Python 2021.04.14