오늘부터 선생님이 바뀌었고 데이터 시각화를 위해 주피터로 바꾸게 되었다.
코드는 07(2)
1. Pandas (with Jupyter Notebook)
* 판다스는 데이터프레임과 시리즈라는 자료형과 데이터 분석을 위한 다양한 기능을 제공하는 파이썬 라이브러리
* 엑셀과 상당히 유사함, 하지만 엑셀은 프로그램을 만들 수 없음
* 데이터의 수정 및 가공이 용이
* 파이썬으로 프로그램을 만들 때 데이터를 변경하고 싶을 때 엑셀을 사용 못 함
* 데이터 가공을 위한 수많은 처리가 상당히 빠름
* Numpy 기반으로 데이터 처리가 상당히 빠름
* 수학적으로 변경, 계산할 때 판다스가 엑셀보다 빠름
1) 데이터 프레임(df)
* 데이터프레임은 2차원 배열
* 여러 개의 시리즈들이 모여서 데이터프레임을 이루는 구조
* 데이터 프레임(df)은 가로축과 세로축이 있는 엑셀과 유사한 데이터 구조
* 가로축: 로우(행) / 새로축 : 컬럼(열)
* 데이터프레임은 시리즈의 결합체
2) 시리즈
* 데이터 프레임의 컬럼은 모두 시리즈
* 시리즈는 단순히 파이썬 리스트를 간직하는 오브젝트
* 리스트를 파라미터로 주면 바로 시리즈가 생성됨
* 시리즈는 데이터 가공 및 분석이 파이썬 리스트 보다 훨씬 쉬움
3) loc, iloc
* loc은 데이터 프레임의 인덱스를 기준으로 데이터 추출
* iloc은 데이터 순서를 의미하는 행 번호를 기준으로 데이터 추출
4) tail 메서드와 loc 속성이 반환하는 자료형은 다름
5) iloc 속성으로 행 데이터 추출
6)데이터 추출하기
* 슬라이싱 구문
* range 메서드
6-1) 슬라이싱 구문으로 데이터 추출하기
6-2) range 메서드로 원하는 데이터 추출하기
6-3) 0~5까지 2만큼 건너뛰는 제네레이터 생성
6-4) 슬라이싱, range 메서드 비교하기
6-5) loc, iloc 속성 자유자재로 사용하기
7. 그룹화한 데이터 평균 구하기
7-1) lifeExp 열을 연도별로 그룹화하여 평균 계산하기
* groupby, mean()
7-2) lifeExp, gdpPercap 열의 평균값을 연도, 지역별로 그룹화하여 계산
7-3) 그룹화한 데이터의 개수 세기
7-4) 그래프 그리기
* %matplotlib : 주피터 노트북에서 그래프 그리기 위한 함수
* import matplotlib.pyplot as plt
반응형
'데이터분석' 카테고리의 다른 글
[23.06.12] Python pandas - 07(3) (0) | 2023.06.12 |
---|---|
[23.06.12] Python pandas - 07(2) (1) | 2023.06.12 |
[23.06.09] Python 객체 지향, 모듈 (야구 게임 만들기) - 06(2) (0) | 2023.06.09 |
[23.06.09] Python 객체 지향, 모듈 - 06(1) (2) | 2023.06.09 |
[23.06.08] Python comprehension, random - 05(2) (0) | 2023.06.08 |