목록전체 글 (305)
RUBY
웹 데이터 수집하고 정리하기 네이버 영화 평점 사이트 분석 1. 네이버 영화 평점 사이트 분석 1. https://movie.naver.com/ 영화랭킹 탭 이동 영화랭킹에서 평점순(현재상영영화) 선택 https://movie.naver.com/movie/sdb/rank/rmovie.naver?sel=cur&date=20230205 랭킹 : 네이버 영화 영화, 영화인, 예매, 박스오피스 랭킹 정보 제공 movie.naver.com - 날짜 정보를 변경해주면 해당 페이지에 접근이 가능합니다. 영화 제목은 안에 안에 태그 안에 있다. 영화 평점은 2. - find_all 명령으로 쉽게 접근한다 - div 태그의 tit5를 확인해보니 안에 a태그가 보인다. soup.find_all("div", "tit5") ..
웹 데이터 수집하고 정리하기 시카고 맛집 데이터 분석 6. 시카고 맛집 데이터 지도 시각화 1. 불러오자 import folium import pandas as pd import numpy as np import googlemaps from tqdm import tqdm df = pd.read_csv("../data/03. best_sandwiches_list_chicago2.csv", index_col=0) df.tail(10) 2. gmaps_key = "전에 발급받은 geocoding api key 넣기" gmaps = googlemaps.Client(key=gmaps_key) lat = [] lng = [] for idx, row in tqdm(df.iterrows()): if not row["A..
웹 데이터 수집하고 정리하기 시카고 맛집 데이터 분석 5. Regular Expression Regular Expression(정규 표현식) 정규표현식의 사전적의미로는 특정한 규칙을 가진 문자열의 집합을 표현하는데 사용하는 형식 언어이다. 주로 Programming Language나 Text Editor 등에서 문자열의 검색과 치환을 위한 용도로 쓰이고 있다. 입력한 문자열에서 특정한 조건을 표현할 경우 일반적인 조건문으로는 다소 복잡할 수도 있지만, 정규 표현식을 이용하면 매우 간단하게 표현할 수 있다. 하지만 코드가 간단한 만큼 가독성이 떨어져서 표현식을 숙지하지 않으면 이해하기 힘들다는 문제점이 있다. 1. 가격과 주소만 가져오기 위해 .,로 분리한다. import re re.split(".,", ..
웹 데이터 수집하고 정리하기 시카고 맛집 데이터 분석 4. 하위페이지 분석 1. - 50 URL 중 하나를 대상으로 잡는다. - 해당 페이지를 확인해보자. import pandas as pd from urllib.request import urlopen, Request from fake_useragent import UserAgent from bs4 import BeautifulSoup df = pd.read_csv("../data/03. best_sandwiches_list_chicago.csv", index_col=0) df.tail() df["URL"][0] 2. - p 태그에 addy라는 class에 내가 얻고 싶은 정보가 있다. 3. 가격만 가져오고 싶은데.. 가격과 주소가 같이 있다. req ..
웹 데이터 수집하고 정리하기 시카고 맛집 데이터 분석 3. 50개 가게에 대해 정보 추출 1. - 필요한 내용을 담을 빈 리스트를 만든다. - 리스트로 하나씩 컬럼을 만들고, DataFrame으로 합칠 예정이다. - div의 sammy 태그를 가져온다.soup.select(".sammy") from urllib.parse import urljoin url_base = "http://www.chicagomag.com" rank = [] main_menu = [] cafe_name = [] url_add = [] list_soup = soup.find_all("div", "sammy") for item in list_soup: rank.append(item.find(class_="sammyRank").get..
웹 데이터 수집하고 정리하기 시카고 맛집 데이터 분석 2. 접근 태그 확인하기 1. !pip install fake-useragent !pip install fake-useragent 2. 이대로 바로 소개 페이지를 분석하려하면, SSL 오류가 뜬다. 더보기 --------------------------------------------------------------------------- SSLCertVerificationError Traceback (most recent call last) File ~\miniconda3\envs\ds_study\lib\urllib\request.py:1354, in AbstractHTTPHandler.do_open(self, http_class, req, **ht..
웹 데이터 수집하고 정리하기 시카고 맛집 데이터 분석 1. 시카고 샌드위치 맛집 소개 페이지 분석 1. 이번에 분석할 페이지는 시카고 샌드위치 맛집 소개 페이지이다. https://www.chicagomag.com/Chicago-Magazine/November-2012/Best-Sandwiches-Chicago/ The 50 Best Sandwiches in Chicago Our list of Chicago’s 50 best sandwiches, ranked in order of deliciousness www.chicagomag.com 2. 시카고의 50개 맛집 샌드위치 가게에 대한 메뉴와 가게 이름이 있다. - 그 중 하나의 페이지에 접속해본다. 3. 가게 주소와 대표 메뉴의 가격이 있다. 4. 정리..
웹 데이터 수집하고 정리하기 4. Python List 데이터형 1. List 형은 대괄호로 생성한다. colors = ["red", "blue", "green"] colors[0], colors[1], colors[2] 2. 데이터 변경하기 b = colors b b[1] = "black" b colors 3. 복사하고 데이터 변경하기 c = colors.copy() c c[1] = "yellow" c colors 4. list형을 반복문에(for) 적용 for color in colors: print(color) 5. in명령으로 조건문(if)에 적용 if "black" in colors: print("True") 6. movies 라는 list형 자료를 만든다. movies = ["오늘 밤, 세계에..