목록전체 글 (305)
RUBY
데이터의 이해 01. 데이터는 그 형태에 따라 정성 데이터와 정량 데이터로 구분된다. 다음 중 정성 데이터에 속하는 것은? ① 풍향 ② 습도 ③ 기상특보 ④ 1시간 강수량 ------------------ 답 : ③ 기상특보 풀이 : 정량적 데이터의 형태는 수치, 도형, 기호 등으로 기술이 되며, 정성 데이터의 형태는 언어, 문자 등으로 기술된다. 구분 형태 예 특징 정성적 데이터 (qualitative data) 언어, 문자 등 회사 매출이 증가함 등 저장, 검색, 분석에 많은 비용이 소모 됨 정량적 데이터 (quantitative data) 수치, 도형, 기호 등 나이, 몸무게, 주가 등 정형화된 데이터로 비용 소모가 적음 정성적 데이터 정량적 데이터 비정형 데이터 주관적 내용 통계분석이 어려움 정형..
데이터와 정보 1. 데이터의 정의와 특성 가. 데이터의 정의 1) 데이터(data)라는 용어는 1646년 영국 문헌에 처음 등장하였으며 라틴어인 dare(주다)의 과거 분사형으로 '주어진 것'이란 의미로 사용되었다. 2) 1940년대 이후 컴퓨터 시대 시작과 함꼐 자연과학뿐만 아니라 경영학, 통계학 등 다양한 사회과학이 진일보하며, 데이터의 의미는 과거의 관념적이고 추상적인 개념에서 기술적이고 사실적인 의미로 변화되었다. 3) 데이터는 추론과 추정의 근거를 이루는 사실이다.(옥스퍼드 대사전) 4) 데이터는 단순한 객체로서의 가치뿐만 아니라 다른 객체와의 상호관계 속에서 가치를 갖는 것으로 설명되고 있다. 나. 데이터의 특성 1) 존재적 특성 : 객관적 사실(fact, raw material) 2) 당위적..
웹 데이터 수집하고 정리하기 Oil Price Analysis and Green construction 4. 데이터 접근하기 1. selenium 설치이~ !pip install selenium 2. 페이지 접근하기 from selenium import webdriver url = "https://www.opinet.co.kr/searRgSelect.do" driver = webdriver.Chrome("../driver/chromedriver") driver.get(url) 3. 지역: 시/도 sido_list_raw = driver.find_element_by_id("SIDO_NM0") sido_list_raw.text 4. 서울특별시! sido_list[1].get_attribute("value")..
웹 데이터 수집하고 정리하기 Oil Price Analysis and Green construction 3. 데이터 확보하기 1. 대한민국 주유 가격을 알아보는 사이트이다. 목표 데이터는 브랜드, 가격, 셀프 주유 여부, 위치 이다. https://www.opinet.co.kr/user/main/mainView.do 싼 주유소 찾기 오피넷 www.opinet.co.kr 2. 싼 주유소 찾기 - 지역별 3. 지역에서 광역시도와 시구 정보를 입력한다. - 지도가 바뀌고, 또 잠시 후 주유소 정보가 로딩된다. 4. 셀프 여부를 알려주고 있고 휘발유 가격도 나온다. - 상표와 주소 정보를 다루기가 약간 까다로워 보인다. - 엑셀 파일에는 원하는 모든 정보가 존재한다. 5. 마우스를 클릭하며 지역을 선택해야한다...
웹 데이터 수집하고 정리하기 Oil Price Analysis and Green construction 2. Selenium 기초 셀레니움을 이용해보자.. 1. 크롬드라이버 실행 webdriver.Chrome 명령으로 크롬 드라이버의 경로 지정 get 명령으로 접근하고 싶은 주소 지정 !pip install selenium 2. 이 놈은 무엇인가... 아.... 최신버전에서는 다른 설치 방법을 권장한단다. 그럼 최신으로 해야지! ! pip install webdriver_manager from selenium import webdriver from selenium.webdriver.chrome.service import Service from webdriver_manager.chrome import Ch..
웹 데이터 수집하고 정리하기 Oil Price Analysis and Green construction 1. Selenium 설치 Beautiful Soup만으로 해결할 수 없는 것.. 접근할 웹 주소를 알 수 없을 때 자바스크립트를 사용하는 웹페이지의 경우 웹 브라우저로 접근하지 않으면 안될 때 Selenium 웹 브라우저를 원격 조작하는 도구 자동으로 URL을 열고 클릭 등이 가능 스크롤, 문자의 입력, 화면 캡쳐 등등 - Selenium은 Python 모듈도 설치하고 크롬 드라이버도 받아야한다. !pip install selenium 설치하고 크롬 버전을 확인해보자 1. Chrome 맞춤 설정 및 제어 → 도움말 → Chrome 정보 2. 크롬 버전 확인하기 3. 구글에서 chromedriver를 ..
웹 데이터 수집하고 정리하기 네이버 영화 평점 사이트 분석 3. 영화 평점 데이터 정리 - 영화 이름으로 인덱스를 잡습니다.. - 점수의 합산을 구합니다. - 100일 간 네이버 영화 평점 합산 기준 베스트&워스트 10 선정 import numpy as np import pandas as pd movie = pd.read_csv("../data/03. naver_movie_data.csv", index_col=0) movie.tail() 1. pivot table 또 뜨는 경고창... 불편하네요.. 가볍게 보내버립니다. import warnings warnings.simplefilter(action='ignore', category=FutureWarning) movie_unique = pd.pivot_t..
웹 데이터 수집하고 정리하기 네이버 영화 평점 사이트 분석 2. 자동화를 위한 코드 1. 날짜만 변경하면 원하는 기간 만큼 데이터를 얻을 수 있다. https://movie.naver.com/movie/sdb/rank/rmovie.naver?sel=cur&date=20230205 - pandas의 date_range를 이용하면, 손쉽게 날짜를 만들 수 있다. - 2022.10.29 부터 오늘날짜까지 100일을 생성한다. date = pd.date_range("2022.10.29", periods=100, freq="D") date 2. 날짜형 데이터들은 원하는 형태로 출력이 가능하다. date[0] date[0].strftime("%Y-%m-%d") date[0].strftime("%Y.%m.%d") 3..