데이터분석

[23.06.12] Python pandas - 07(1)

gmwoo 2023. 6. 12. 15:11

오늘부터 선생님이 바뀌었고 데이터 시각화를 위해 주피터로 바꾸게 되었다.

코드는 07(2)




1. Pandas (with Jupyter Notebook)

 * 판다스는 데이터프레임과 시리즈라는 자료형과 데이터 분석을 위한 다양한 기능을 제공하는 파이썬 라이브러리

 * 엑셀과 상당히 유사함, 하지만 엑셀은 프로그램을 만들 수 없음

 * 데이터의 수정 및 가공이 용이

 * 파이썬으로 프로그램을 만들 때 데이터를 변경하고 싶을 때 엑셀을 사용 못 함

 * 데이터 가공을 위한 수많은 처리가 상당히 빠름

 * Numpy 기반으로 데이터 처리가 상당히 빠름

 * 수학적으로 변경, 계산할 때 판다스가 엑셀보다 빠름



1) 데이터 프레임(df)


 * 데이터프레임은 2차원 배열

 * 여러 개의 시리즈들이 모여서 데이터프레임을 이루는 구조

 * 데이터 프레임(df)은 가로축과 세로축이 있는 엑셀과 유사한 데이터 구조

 * 가로축: 로우(행)  /  새로축 : 컬럼(열)

 * 데이터프레임은 시리즈의 결합체



2) 시리즈
 * 데이터 프레임의 컬럼은 모두 시리즈

 * 시리즈는 단순히 파이썬 리스트를 간직하는 오브젝트

 * 리스트를 파라미터로 주면 바로 시리즈가 생성됨

 * 시리즈는 데이터 가공 및 분석이 파이썬 리스트 보다 훨씬 쉬움



3) loc, iloc


 * loc은 데이터 프레임의 인덱스를 기준으로 데이터 추출

 * iloc은 데이터 순서를 의미하는 행 번호를 기준으로 데이터 추출



4) tail 메서드와 loc 속성이 반환하는 자료형은 다름


5) iloc 속성으로 행 데이터 추출


6)데이터 추출하기


 * 슬라이싱 구문

 * range 메서드

 6-1) 슬라이싱 구문으로 데이터 추출하기

 6-2) range 메서드로 원하는 데이터 추출하기

 6-3) 0~5까지 2만큼 건너뛰는 제네레이터 생성

 6-4) 슬라이싱, range 메서드 비교하기

 6-5) loc, iloc 속성 자유자재로 사용하기



7. 그룹화한 데이터 평균 구하기

7-1) lifeExp 열을 연도별로 그룹화하여 평균 계산하기


 * groupby, mean()

7-2) lifeExp, gdpPercap 열의 평균값을 연도, 지역별로 그룹화하여 계산

7-3) 그룹화한 데이터의 개수 세기

7-4) 그래프 그리기


 * %matplotlib : 주피터 노트북에서 그래프 그리기 위한 함수

 * import matplotlib.pyplot as plt



반응형