[23.06.12] Python pandas - 07(1)

데이터분석

[23.06.12] Python pandas - 07(1)

gmwoo 2023. 6. 12. 15:11

오늘부터 선생님이 바뀌었고 데이터 시각화를 위해 주피터로 바꾸게 되었다.

코드는 07(2)

1. Pandas (with Jupyter Notebook)

* 판다스는 데이터프레임과 시리즈라는 자료형과 데이터 분석을 위한 다양한 기능을 제공하는 파이썬 라이브러리

* 엑셀과 상당히 유사함, 하지만 엑셀은 프로그램을 만들 수 없음

* 데이터의 수정 및 가공이 용이

* 파이썬으로 프로그램을 만들 때 데이터를 변경하고 싶을 때 엑셀을 사용 못 함

* 데이터 가공을 위한 수많은 처리가 상당히 빠름

* Numpy 기반으로 데이터 처리가 상당히 빠름

* 수학적으로 변경, 계산할 때 판다스가 엑셀보다 빠름

1) 데이터 프레임(df)

* 데이터프레임은 2차원 배열

* 여러 개의 시리즈들이 모여서 데이터프레임을 이루는 구조

* 데이터 프레임(df)은 가로축과 세로축이 있는 엑셀과 유사한 데이터 구조

* 가로축: 로우(행) / 새로축 : 컬럼(열)

* 데이터프레임은 시리즈의 결합체

2) 시리즈
* 데이터 프레임의 컬럼은 모두 시리즈

* 시리즈는 단순히 파이썬 리스트를 간직하는 오브젝트

* 리스트를 파라미터로 주면 바로 시리즈가 생성됨

* 시리즈는 데이터 가공 및 분석이 파이썬 리스트 보다 훨씬 쉬움

3) loc, iloc

* loc은 데이터 프레임의 인덱스를 기준으로 데이터 추출

* iloc은 데이터 순서를 의미하는 행 번호를 기준으로 데이터 추출

4) tail 메서드와 loc 속성이 반환하는 자료형은 다름

5) iloc 속성으로 행 데이터 추출

6)데이터 추출하기

* 슬라이싱 구문

* range 메서드

6-1) 슬라이싱 구문으로 데이터 추출하기

6-2) range 메서드로 원하는 데이터 추출하기

6-3) 0~5까지 2만큼 건너뛰는 제네레이터 생성

6-4) 슬라이싱, range 메서드 비교하기

6-5) loc, iloc 속성 자유자재로 사용하기

7. 그룹화한 데이터 평균 구하기

7-1) lifeExp 열을 연도별로 그룹화하여 평균 계산하기

* groupby, mean()

7-2) lifeExp, gdpPercap 열의 평균값을 연도, 지역별로 그룹화하여 계산

7-3) 그룹화한 데이터의 개수 세기

7-4) 그래프 그리기

* %matplotlib : 주피터 노트북에서 그래프 그리기 위한 함수

* import matplotlib.pyplot as plt

저작자표시 (새창열림)

'데이터분석' 카테고리의 다른 글

[23.06.12] Python pandas - 07(3) (0)	2023.06.12
[23.06.12] Python pandas - 07(2) (1)	2023.06.12
[23.06.09] Python 객체 지향, 모듈 (야구 게임 만들기) - 06(2) (0)	2023.06.09
[23.06.09] Python 객체 지향, 모듈 - 06(1) (2)	2023.06.09
[23.06.08] Python comprehension, random - 05(2) (0)	2023.06.08

현재글[23.06.12] Python pandas - 07(1)

댓글

티스토리툴바