Woogi

[23.07.21] 머신러닝(독버섯 찾기) - 36(2)

In [1]: import numpy as np import pandas as pd from sklearn.model_selection import train_test_split mush = pd.read_csv('../../data/mushroom.csv', header=None) mush.head() Out[1]: 0 1 2 3 4 5 6 7 8 9 ... 13 14 15 16 17 18 19 20 21 22 0 p x s n t p f c n k ... s w w p w o p k s u 1 e x s y t a f c b k ... s w w p w o p n n g 2 e b s w t l f c b n ... s w w p w o p n n m 3 p x y w t p f c n n ... s..

데이터분석 2023.07.21

[23.07.21] 머신러닝(Random Forest) - 36(1)

책 : 혼자 공부하는 머신러닝 + 딥러닝 저자 : 박해선 예제 : https://github.com/rickiepark/hg-mldl GitHub - rickiepark/hg-mldl: 의 코드 저장소입니다. 의 코드 저장소입니다. Contribute to rickiepark/hg-mldl development by creating an account on GitHub. github.com 앙상블¶ 앙상블 학습을 통한 분류는 여러 개의 분류기를 생성하고 그 예측을 결합함으로써 보다 정확한 최종 예측을 도출하는 기법 어려운 문제의 결론을 내기 위해 여러 명의 전문가로 위원회를 구성해 다양한 의견을 수렴하고 결정하듯이 앙상블 학습의 목표는 다양한 분류기의 예측결과를 결합함으로써 단일 분류기보다 신뢰성이 높은..

데이터분석 2023.07.21

[23.07.18] 머신러닝(선형회귀) - 33(3)

책 : 혼자 공부하는 머신러닝 + 딥러닝 저자 : 박해선 예제 : https://github.com/rickiepark/hg-mldl / 3-2장 GitHub - rickiepark/hg-mldl: 의 코드 저장소입니다. 의 코드 저장소입니다. Contribute to rickiepark/hg-mldl development by creating an account on GitHub. github.com - 이전 포스팅 이어서~ 2023.07.18 - [데이터분석] - [23.07.18] 머신러닝(k-최근접 이웃 회귀) - 33(2) [23.07.18] 머신러닝(k-최근접 이웃 회귀) - 33(2) 책 : 혼자 공부하는 머신러닝 + 딥러닝 저자 : 박해선 예제 : https://github.com/rick..

데이터분석 2023.07.18

[23.07.18] 머신러닝(k-최근접 이웃 회귀) - 33(2)

책 : 혼자 공부하는 머신러닝 + 딥러닝 저자 : 박해선 예제 : https://github.com/rickiepark/hg-mldl 1. scikit-learn 1) KNeighborsRegressor - k-최근접 이웃 회귀 모델을 만드는 사이킷런 클래스 - n_neighbors 매개변수로 이웃의 개수를 지정 (default = 5) 2) mean_absolute_error() - 회귀 모델의 평균 절댓값 오차를 계싼 - 첫 번째 매개변수는 타깃, 두 번째 매개변수는 예측값을 전달 - 이와 비슷한 함수로는 평균제곱오차(MSE) mean_squared_error()가 있음 1. 분류 vs 회귀 1) 분류 - 미리 정의된, 여러 클래스 레이블 중 하나를 예측 - 이진 분류와 다중 분류로 구분 - ex) ..

데이터분석 2023.07.18

[23.07.18] 머신러닝(iris붓꽃데이터) - 33(1)

1. Iris 붓꽃 데이터 1) 사이킷런 내장 모듈 - sklearn.dataset : 서브패키지는 다양한 예제 데이터셋을 제공, 데이터를 불러오는 명령들은 load, make, - sklearn.model_selection - sklearn.neighbors (1) 데이터 적재¶ scikit-learn의 dataset모듈에 포함되어 있음 In [1]: import numpy as np import pandas as pd from sklearn.datasets import load_iris # from sklearn.datasets import load_breast_cancer iris_dataset = load_iris() # cancer_dataset = load_breast_cancer() In [..

데이터분석 2023.07.18

[23.07.17] 머신러닝(Machine Learning) - 32(1)

책 : 혼자공부하는 머신러닝 + 딥러닝 (저자: 박해선) 1 ~ 2 장 내용 1. 특성(feature) : 데이터를 표현하는 하나의 성질 (해당 책에서는 생선 데이터의 길이와 무게 특성) 2. 훈련(training) : 머신러닝 알고리즘이 데이터에서 규칙을 찾는 과정, 사이킷런에는 fit() 메소드 3. k-최근접 이웃 알고리즘(KNN) : 가장 간단한 머신러닝 알고리즘 4. 모델(model) : 알고리즘이 구현된 객체 5. 정확도(accuracy) : 정확한 답을 몇 개 맞췄는지 백분율로 나타낸 값. 사이킷런에는 0~1 출력 6. 지도학습 : 입력고 타깃을 전달하여 모델을 훈련한 다음 새로운 데이터를 예측하는데 활용 - k-최근접 이웃 7. 비지도학습 : 타깃 데이터가 없음, 무엇을 예측하는 것이 아닌..

데이터분석 2023.07.18

[Weekly 회고] - 07

23.07.10 ~ 23.07.16, 7주차 1️⃣ 느낀점 이번 주는 프로젝트 기간이었다. 그래서 git이랑 포스팅은 하지 못했다. 나중에 한 번에 정리해서 올릴 예정이다. 프로젝트는 경주 역사유적지를 기반으로 뚜벅이 여행객들을 위해 버스 시간표를 제공함으로써 최적 경로를 추천해주는 시스템을 만드는 프로젝트였다. 나는 네이버지도를 크롤링하고 경주에 있는 모든 버스와 정류장 정보를 받아와 시간표를 만드는 작업을 했다. 버스 데이터가 너무 많아 크롤링 하는데 너무 오래 걸려서 다른 작업을 하지 못했다. 협업을 하기 위한 프로젝트인데 충분한 협업이 이루어지지 않은 것 같다. 앞으로는 얼마나 걸리는지 미리 파악한 다음에 효율적인 협업을 해야겠다. 2️⃣좋았던 점 원래 다같이 협업을 하는 것을 좋아하는데 오랜만에..

끄적끄적 2023.07.17

[Weekly 회고] - 06

23.07.03 ~ 23.07.09, 6주차 1️⃣ 느낀점 이번 주부터 미니 프로젝트 기간이다. 다음 주 금요일(7.14)까지 하는 짧은 프로젝트지만 공모전과 함께 준비하기 때문에 열심히 해야한다.. 우리는 우리가 뚜벅이 시절 여행 갔을 때, 불편했던 교통편을 해결하고자 정류장별 시간을 계산해서 최단 경로로 여행 코스를 짜는 프로젝트이다. 우선 역사 유적지가 많은 경상북도 경주를 대상으로 외국인을 위한 코스 추천이다. 팀원들은 데이터 전처리와 시각화를 맡았고 나는 네이버 지도에서 유적지 관련 모든 버스와 정류장을 크롤링하고 시각화하는 역할을 맡았다. 다음 주 까지 바쁠 예정이다. 2️⃣좋았던 점 주제를 정하고 주제 발표하는데 뭔가 잘 될 기분이다. 민폐 안끼치게 열심히 해야겠다. 3️⃣아쉬웠던 점 아쉬웠..

끄적끄적 2023.07.10

[23.07.07] 프로젝트 주제 발표 - 26(1)

첫 번째 프로젝트 발표 "경주 올 경주~"

데이터분석 2023.07.07

Woogi

전체 글 99

티스토리툴바