데이터분석 57

[23.07.21] 머신러닝(Random Forest) - 36(1)

책 : 혼자 공부하는 머신러닝 + 딥러닝 저자 : 박해선 예제 : https://github.com/rickiepark/hg-mldl GitHub - rickiepark/hg-mldl: 의 코드 저장소입니다. 의 코드 저장소입니다. Contribute to rickiepark/hg-mldl development by creating an account on GitHub. github.com 앙상블¶ 앙상블 학습을 통한 분류는 여러 개의 분류기를 생성하고 그 예측을 결합함으로써 보다 정확한 최종 예측을 도출하는 기법 어려운 문제의 결론을 내기 위해 여러 명의 전문가로 위원회를 구성해 다양한 의견을 수렴하고 결정하듯이 앙상블 학습의 목표는 다양한 분류기의 예측결과를 결합함으로써 단일 분류기보다 신뢰성이 높은..

데이터분석 2023.07.21

[23.07.18] 머신러닝(선형회귀) - 33(3)

책 : 혼자 공부하는 머신러닝 + 딥러닝 저자 : 박해선 예제 : https://github.com/rickiepark/hg-mldl / 3-2장 GitHub - rickiepark/hg-mldl: 의 코드 저장소입니다. 의 코드 저장소입니다. Contribute to rickiepark/hg-mldl development by creating an account on GitHub. github.com - 이전 포스팅 이어서~ 2023.07.18 - [데이터분석] - [23.07.18] 머신러닝(k-최근접 이웃 회귀) - 33(2) [23.07.18] 머신러닝(k-최근접 이웃 회귀) - 33(2) 책 : 혼자 공부하는 머신러닝 + 딥러닝 저자 : 박해선 예제 : https://github.com/rick..

데이터분석 2023.07.18

[23.07.18] 머신러닝(k-최근접 이웃 회귀) - 33(2)

책 : 혼자 공부하는 머신러닝 + 딥러닝 저자 : 박해선 예제 : https://github.com/rickiepark/hg-mldl 1. scikit-learn 1) KNeighborsRegressor - k-최근접 이웃 회귀 모델을 만드는 사이킷런 클래스 - n_neighbors 매개변수로 이웃의 개수를 지정 (default = 5) 2) mean_absolute_error() - 회귀 모델의 평균 절댓값 오차를 계싼 - 첫 번째 매개변수는 타깃, 두 번째 매개변수는 예측값을 전달 - 이와 비슷한 함수로는 평균제곱오차(MSE) mean_squared_error()가 있음 1. 분류 vs 회귀 1) 분류 - 미리 정의된, 여러 클래스 레이블 중 하나를 예측 - 이진 분류와 다중 분류로 구분 - ex) ..

데이터분석 2023.07.18

[23.07.18] 머신러닝(iris붓꽃데이터) - 33(1)

1. Iris 붓꽃 데이터 1) 사이킷런 내장 모듈 - sklearn.dataset : 서브패키지는 다양한 예제 데이터셋을 제공, 데이터를 불러오는 명령들은 load, make, - sklearn.model_selection - sklearn.neighbors (1) 데이터 적재¶ scikit-learn의 dataset모듈에 포함되어 있음 In [1]: import numpy as np import pandas as pd from sklearn.datasets import load_iris # from sklearn.datasets import load_breast_cancer iris_dataset = load_iris() # cancer_dataset = load_breast_cancer() In [..

데이터분석 2023.07.18

[23.07.17] 머신러닝(Machine Learning) - 32(1)

책 : 혼자공부하는 머신러닝 + 딥러닝 (저자: 박해선) 1 ~ 2 장 내용 1. 특성(feature) : 데이터를 표현하는 하나의 성질 (해당 책에서는 생선 데이터의 길이와 무게 특성) 2. 훈련(training) : 머신러닝 알고리즘이 데이터에서 규칙을 찾는 과정, 사이킷런에는 fit() 메소드 3. k-최근접 이웃 알고리즘(KNN) : 가장 간단한 머신러닝 알고리즘 4. 모델(model) : 알고리즘이 구현된 객체 5. 정확도(accuracy) : 정확한 답을 몇 개 맞췄는지 백분율로 나타낸 값. 사이킷런에는 0~1 출력 6. 지도학습 : 입력고 타깃을 전달하여 모델을 훈련한 다음 새로운 데이터를 예측하는데 활용 - k-최근접 이웃 7. 비지도학습 : 타깃 데이터가 없음, 무엇을 예측하는 것이 아닌..

데이터분석 2023.07.18

[23.07.06] 인스타그램 크롤링 - 25(1)

1. 인스타그램 크롤링¶ 1) 네이버 카페 접근하기¶ In [18]: from selenium import webdriver from selenium.webdriver.chrome.service import Service from selenium.webdriver.common.by import By path='../../driver/chromedriver.exe' driver = webdriver.Chrome(service=Service(path)) In [19]: driver.get('https:www.naver.com') 1-1) 네이버 홈페이지에서 네이버 카페로 접근¶ F12 후 '카페' 배너 클릭하여 우클릭 > copy > copy Xpath In [20]: # 첫번째 방법 driver.get('..

데이터분석 2023.07.06

[23.07.05] 데이터 시각화(WordCloud) - 24(1)

자연어 처리¶ 1. 한글 자연어 처리 기초 - KoNLPy 및 필요 모듈 설치¶ KoNLPy 패키지 설치 JDK 설치 : JAVA JDK로 검색해서 OS에 맞춰 설치 KoNLPy 의존성 패키지 설치 pip install jpype1 KoNLPy 설치 pip install konlpy (C:\Users\A\Anaconda3) C:\Users\Anaconda3>python3 import nltk nltk.download() --> stopwords & punkt duble click download 워드 클라우드 pip install wordcloud gensim 설치 pip install gensim 2. 한글 자연어 처리 기초¶ In [1]: import warnings warnings.filterwar..

데이터분석 2023.07.05
반응형