[WebData][chicago] 4. 하위페이지 분석

Notice

Recent Posts

Recent Comments

Link

« 2025/07 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

RUBY

[WebData][chicago] 4. 하위페이지 분석 본문

데이터 분석/EDA_웹크롤링_파이썬프로그래밍

[WebData][chicago] 4. 하위페이지 분석

ruby-jieun 2023. 2. 5. 19:09

웹 데이터 수집하고 정리하기
시카고 맛집 데이터 분석
4. 하위페이지 분석

- 50 URL 중 하나를 대상으로 잡는다.

- 해당 페이지를 확인해보자.

import pandas as pd 
from urllib.request import urlopen, Request
from fake_useragent import UserAgent
from bs4 import BeautifulSoup

df = pd.read_csv("../data/03. best_sandwiches_list_chicago.csv", index_col=0)
df.tail()

df["URL"][0]

- p 태그에 addy라는 class에 내가 얻고 싶은 정보가 있다.

3. 가격만 가져오고 싶은데.. 가격과 주소가 같이 있다.

req = Request(df["URL"][0], headers={"user-agent":ua.ie})
html = urlopen(req).read()
soup_tmp = BeautifulSoup(html, "html.parser")
soup_tmp.find("p", "addy")

4. 살펴보자

- 먼저 $ 달러 기호를 만나서 나타나는 숫자들은 .을 만날 때까지 가격이다.

- 단 10.5처럼 . 기호 후에 다시 연달아 숫자가 나올 수도 있다.

- 띄어쓰기 후에 숫자 혹은 문자가 나타나면 주소이다.

- 주소는 .,으로 끝난다.

<p class="addy">
<em>$10. 2109 W. Chicago Ave., 773-772-0406, <a href="http://www.theoldoaktap.com/">theoldoaktap.com</a></em></p>

'데이터 분석 > EDA_웹크롤링_파이썬프로그래밍' 카테고리의 다른 글

[WebData][chicago] 6. 시카고 맛집 데이터 지도 시각화 (0)	2023.02.05
[WebData][chicago] 5. Regular Expression (1)	2023.02.05
[WebData][chicago] 3. 50개 가게에 대해 정보 추출 (0)	2023.02.05
[WebData][chicago] 2. 접근 태그 확인하기 (0)	2023.02.05
[WebData][chicago] 1. 시카고 샌드위치 맛집 소개 페이지 분석 (0)	2023.02.05

'데이터 분석/EDA_웹크롤링_파이썬프로그래밍' Related Articles

Comments

RUBY

[WebData][chicago] 4. 하위페이지 분석 본문

[WebData][chicago] 4. 하위페이지 분석

'데이터 분석 > EDA_웹크롤링_파이썬프로그래밍' 카테고리의 다른 글

티스토리툴바