목록데이터 분석 (51)
RUBY

웹 데이터 수집하고 정리하기 시카고 맛집 데이터 분석 5. Regular Expression Regular Expression(정규 표현식) 정규표현식의 사전적의미로는 특정한 규칙을 가진 문자열의 집합을 표현하는데 사용하는 형식 언어이다. 주로 Programming Language나 Text Editor 등에서 문자열의 검색과 치환을 위한 용도로 쓰이고 있다. 입력한 문자열에서 특정한 조건을 표현할 경우 일반적인 조건문으로는 다소 복잡할 수도 있지만, 정규 표현식을 이용하면 매우 간단하게 표현할 수 있다. 하지만 코드가 간단한 만큼 가독성이 떨어져서 표현식을 숙지하지 않으면 이해하기 힘들다는 문제점이 있다. 1. 가격과 주소만 가져오기 위해 .,로 분리한다. import re re.split(".,", ..

웹 데이터 수집하고 정리하기 시카고 맛집 데이터 분석 4. 하위페이지 분석 1. - 50 URL 중 하나를 대상으로 잡는다. - 해당 페이지를 확인해보자. import pandas as pd from urllib.request import urlopen, Request from fake_useragent import UserAgent from bs4 import BeautifulSoup df = pd.read_csv("../data/03. best_sandwiches_list_chicago.csv", index_col=0) df.tail() df["URL"][0] 2. - p 태그에 addy라는 class에 내가 얻고 싶은 정보가 있다. 3. 가격만 가져오고 싶은데.. 가격과 주소가 같이 있다. req ..

웹 데이터 수집하고 정리하기 시카고 맛집 데이터 분석 3. 50개 가게에 대해 정보 추출 1. - 필요한 내용을 담을 빈 리스트를 만든다. - 리스트로 하나씩 컬럼을 만들고, DataFrame으로 합칠 예정이다. - div의 sammy 태그를 가져온다.soup.select(".sammy") from urllib.parse import urljoin url_base = "http://www.chicagomag.com" rank = [] main_menu = [] cafe_name = [] url_add = [] list_soup = soup.find_all("div", "sammy") for item in list_soup: rank.append(item.find(class_="sammyRank").get..

웹 데이터 수집하고 정리하기 시카고 맛집 데이터 분석 2. 접근 태그 확인하기 1. !pip install fake-useragent !pip install fake-useragent 2. 이대로 바로 소개 페이지를 분석하려하면, SSL 오류가 뜬다. 더보기 --------------------------------------------------------------------------- SSLCertVerificationError Traceback (most recent call last) File ~\miniconda3\envs\ds_study\lib\urllib\request.py:1354, in AbstractHTTPHandler.do_open(self, http_class, req, **ht..

웹 데이터 수집하고 정리하기 시카고 맛집 데이터 분석 1. 시카고 샌드위치 맛집 소개 페이지 분석 1. 이번에 분석할 페이지는 시카고 샌드위치 맛집 소개 페이지이다. https://www.chicagomag.com/Chicago-Magazine/November-2012/Best-Sandwiches-Chicago/ The 50 Best Sandwiches in Chicago Our list of Chicago’s 50 best sandwiches, ranked in order of deliciousness www.chicagomag.com 2. 시카고의 50개 맛집 샌드위치 가게에 대한 메뉴와 가게 이름이 있다. - 그 중 하나의 페이지에 접속해본다. 3. 가게 주소와 대표 메뉴의 가격이 있다. 4. 정리..

웹 데이터 수집하고 정리하기 4. Python List 데이터형 1. List 형은 대괄호로 생성한다. colors = ["red", "blue", "green"] colors[0], colors[1], colors[2] 2. 데이터 변경하기 b = colors b b[1] = "black" b colors 3. 복사하고 데이터 변경하기 c = colors.copy() c c[1] = "yellow" c colors 4. list형을 반복문에(for) 적용 for color in colors: print(color) 5. in명령으로 조건문(if)에 적용 if "black" in colors: print("True") 6. movies 라는 list형 자료를 만든다. movies = ["오늘 밤, 세계에..

웹 데이터 수집하고 정리하기 3. Beautiful Soup 1. "오늘 밤, 세계에서 이 사랑이 사라진다 해도" 위키 백과 페이지로 이동 https://ko.wikipedia.org/wiki/%EC%98%A4%EB%8A%98_%EB%B0%A4,_%EC%84%B8%EA%B3%84%EC%97%90%EC%84%9C_%EC%9D%B4_%EC%82%AC%EB%9E%91%EC%9D%B4_%EC%82%AC%EB%9D%BC%EC%A7%84%EB%8B%A4_%ED%95%B4%EB%8F%84 오늘 밤, 세계에서 이 사랑이 사라진다 해도 - 위키백과, 우리 모두의 백과사전 위키백과, 우리 모두의 백과사전. 오늘 밤, 세계에서 이 사랑이 사라진다 해도(일본어: 今夜、世界からこの恋が消えても)는 이치조 미사키의 소설이다. 20..

웹 데이터 수집하고 정리하기 2. 크롬 개발자 도구 - 환율정보 가져오기 1. 네이버 증권 접속 2. 시장지표 탭으로 이동 3. - USD 환율 체크를 파이썬으로 하고자한다. - 크롬 개발자 도구를 이용해보자 4. 이 아이콘 선택 5. 필요한 데이터 부분을 선택한다. - 원하는 HTML 태그가 위치한 곳을 찾아갈 수 있다. - 여기서 기억해야 할 것은 이다. 6. url 주소를 복사한다. https://finance.naver.com/marketindex/ https://finance.naver.com/marketindex/ 환전 고시 환율 2023.02.03 23:58 하나은행 기준 고시회차 415회 finance.naver.com 7. 웹 주소(URL)에 접근할 때는 urllib의 request 모듈..