전체 글 99

[23.07.06] 인스타그램 크롤링 - 25(1)

1. 인스타그램 크롤링¶ 1) 네이버 카페 접근하기¶ In [18]: from selenium import webdriver from selenium.webdriver.chrome.service import Service from selenium.webdriver.common.by import By path='../../driver/chromedriver.exe' driver = webdriver.Chrome(service=Service(path)) In [19]: driver.get('https:www.naver.com') 1-1) 네이버 홈페이지에서 네이버 카페로 접근¶ F12 후 '카페' 배너 클릭하여 우클릭 > copy > copy Xpath In [20]: # 첫번째 방법 driver.get('..

데이터분석 2023.07.06

[23.07.05] 데이터 시각화(WordCloud) - 24(1)

자연어 처리¶ 1. 한글 자연어 처리 기초 - KoNLPy 및 필요 모듈 설치¶ KoNLPy 패키지 설치 JDK 설치 : JAVA JDK로 검색해서 OS에 맞춰 설치 KoNLPy 의존성 패키지 설치 pip install jpype1 KoNLPy 설치 pip install konlpy (C:\Users\A\Anaconda3) C:\Users\Anaconda3>python3 import nltk nltk.download() --> stopwords & punkt duble click download 워드 클라우드 pip install wordcloud gensim 설치 pip install gensim 2. 한글 자연어 처리 기초¶ In [1]: import warnings warnings.filterwar..

데이터분석 2023.07.05

[23.07.04] 데이터 시각화(시계열 분석) - 23(1)

시계열 분석¶ 연도별 계절별 월별 일별 시 분 초별로 시간의 흐름에 따라 관측된 자료 시계열 자료의 여러 형태 시계열 그림 시간의 경과에 따라 시계열자료의 값이 변하는 것을 그린 그림 목적 1) 미래 예측 2) 시스템 또는 확률과정의 이해와 제어 1. Numpy의 profit으로 회귀(regression) 분석하기¶ 1) 야후 파이낸스 데이터를 가져오기 위한 yfinance * pip install yfinance 2) 예측 모델링 및 시각화를 위한 prophet * pip install prophet 3) Prophets는 Plotly 기반으로 데이터를 시각화하므로 * pip install plotly In [1]: import warnings warnings.filterwarnings('ignore'..

데이터분석 2023.07.04

[23.07.03] 데이터 시각화(인구 소멸) - 22(2)

우리나라 인구 소명 위기 지역 분석¶ 인구 소멸 위기 지역:¶ ‘한국의 ‘지방소멸' 65세 이상 노인 인구와 20∼39세 여성 인구를 비교해 젊은 여성 인구가 노인 인구의 절반에 미달할 경우 ‘소멸 위험 지역’으로 분류하는 방식 국가통계포털(KOSIS) https://kosis.kr/index/index.do 인구데이터 확보하고 정리하기¶ In [1]: import pandas as pd import numpy as np import matplotlib.pyplot as plt import seaborn as sns import platform import warnings warnings.filterwarnings(action='ignore') path = "C:/Windows/Fonts/malgun.t..

데이터분석 2023.07.03

[23.07.03] 데이터 시각화(기름 제일 싼 곳) - 22(1)

벌써 7월,,, 2023 상반기 벌써 끝났엉 ㅠㅠ 4. 셀프 주유소는 정말 저렴할까?¶ 4-1 Selenium 사용하기¶ 오피넷: https://www.opinet.co.kr/searRgSelect.do 지역을 변경해도 URL이 변경되지 않음 BeautifulSoup 모듈은 로그인이 필요하거나 어떠한 버튼 등을 클릭한 뒤 나오는 페이지의 정보들을 가져오기 어렵다 Selenium : https://www.selenium.dev/documentation/ (공식 문서) 웹 브라우저를 원격 조작하는 도구 자동으로 URL을 열고 클릭 등의 매크로 동작 구현 스크롤, 문자의 입력, 화면 캡쳐 등 Selenium 사용 1) pip install selenium 2) 크롬 드라이버 다운로드 -> 버전 확인) 크롬 >..

데이터분석 2023.07.03

[Weekly 회고] - 05

23.6.26 ~ 23.07.02, 5주차 1️⃣ 느낀점 5주차. SQL 기초를 마무리하고 데이터 시각화와 웹 크롤링을 배웠다. SQL을 어느 정도 적응하고 나니 데이터 분석 하는데 활용할 수 있겠다라는 생각을 했다. 지도 시각화를 통해 데이터 시각화를 배웠고 이를 통해 프로젝트에도 써먹을 수 있겠다라는 생각을 했다. 날씨가 덥고, 습하고 비도 많이 와서 오가는데 너무 힘들었지만 그래도 알찬 주차였다. 2️⃣ 좋았던 점 프로젝트 주제가 어느 정도 정해졌다. 해외 입국자들을 위해 역 주변 관광지 또는 체험할 수 있는 문화 시설을 추천하는 시스템이다. 현재 데이터를 많이 모으는 중이고 전처리하는 중이다. 다음 주는 데이터 분석을 할 예정이다. 3️⃣ 아쉬웠던 점 코테를 위한 알고리즘 공부를 많이 못했다. 요..

끄적끄적 2023.07.03

[23.06.30] 데이터 시각화(따릉이) - 21(3)

따릉이 대여소 정보를 지도에 표시¶ In [1]: import folium import pandas as pd import googlemaps import numpy as np import json from folium.plugins import MarkerCluster from folium.plugins import HeatMap import warnings warnings.filterwarnings(action='ignore') In [8]: # gmaps_key = "본인 API" # gmaps = googlemaps.Client(key=gmaps_key) # geo_path = '../../data/02. skorea_municipalities_geo_simple.json' # geo_str = ..

데이터분석 2023.06.30

[23.06.30] 웹 크롤링(샌드위치 맛집) - 21(2)

실전: 시카고 샌드위치 맛집 소개 사이트에 접근¶ In [1]: from bs4 import BeautifulSoup from urllib.request import Request, urlopen In [2]: url_base = 'https://www.chicagomag.com' url_sub = '/Chicago-Magazine/November-2012/Best-Sandwiches-Chicago/' # headers={'User-Agent': "Mozilla/5.0"} -> 크롤링 방지로 인한 봇이 아니에요 url = Request(url_base + url_sub, headers={'User-Agent': "Mozilla/5.0"}) html = urlopen(url) In [43]: soup = ..

데이터분석 2023.06.30

[23.06.30] 웹 크롤링 - 21(1)

1. HTML 구조 * Doctype htmlp : HTML5 문서를 선언하는 구문 * : HTML 문서의 시작과 끝 * : CSS, JavaScript, meta, title 정보들을 설정 * =/body> : 실제 홈페이지 화면에 나타나는 부분 2. 용어 html head body div p a b br 3. BeautifulSoup 모듈 정의 * 홈페이지 내 데이터를 쉽게 추출할 수 있도록 도와주는 파이썬 외부 라이브러리 * 웹 문서 내 수많은 html 태그들을 파서(parser)를 활용해 사용하기 편한 파이썬 객체로 만들어 제공 In [1]: from bs4 import BeautifulSoup In [2]: page = open("../../data/test1.html", "r").read() ..

데이터분석 2023.06.30
반응형