RUBY
[WebData] 3. Beautiful Soup 본문
웹 데이터 수집하고 정리하기
3. Beautiful Soup
1. "오늘 밤, 세계에서 이 사랑이 사라진다 해도" 위키 백과 페이지로 이동
2. 웹페이지(URL)를 복사한다.
- 메모장이나, Jupyter Notebook 셀에 붙여 넣어 보자.
- 인코딩이 잘 못되어있어 바뀌어서 나타난다.
- 웹 주소는 UTF-8로 인코딩 되어야한다.
3. 크롬 개발자 도구에서 파싱할 부분을 찾아본다.
4. 전체 html을 가져온다.
import urllib
from urllib.request import urlopen, Request
html = "https://ko.wikipedia.org/wiki/{search_words}"
req = Request(html.format(search_words=urllib.parse.quote("오늘_밤,_세계에서_이_사랑이_사라진다_해도")))
response = urlopen(req)
soup = BeautifulSoup(response, "html.parser")
print(soup.prettify())
5. ul부분의 text를 가져온다.
n = 0
for each in soup.find_all("ul"):
print("=>" + str(n) + "========================")
print(each.get_text())
n += 1
6. 활용해서 필요한 부분만 가져올 수 있다.
soup.find_all("ul")[22].text.strip().replace("\xa0", "").replace("\n", "")
'데이터 분석 > EDA_웹크롤링_파이썬프로그래밍' 카테고리의 다른 글
[WebData][chicago] 1. 시카고 샌드위치 맛집 소개 페이지 분석 (0) | 2023.02.05 |
---|---|
[WebData] 4. Python List 데이터형 (0) | 2023.02.05 |
[WebData] 2. 크롬 개발자 도구 - 환율정보 가져오기 (0) | 2023.02.05 |
[WebData] 1. BeautifulSoup for web data (0) | 2023.02.05 |
[CRIME] 15. 서울시 범죄 현황 발생 장소 분석 (0) | 2023.02.04 |
Comments