목록데이터 분석 (51)
RUBY

서울시 CCTV 분석하기 프로젝트 5. matplotlib기초 matplotlib란? 파이썬의 대표 시각화 도구 Matplotlib는 Python 프로그래밍 언어 및 수학적 확장 NumPy 라이브러리를 활용한 플로팅 라이브러리이다. Tkinter , wxPython , Qt 또는 GTK 와 같은 범용 GUI 툴킷을 사용하여 애플리케이션에 플롯을 포함 하기 위한 객체 지향 API를 제공한다. Matplotlib은 매트랩과 유사하게 설계된 상태기계(예: OpenGL )을 기반으로 하는 절차적 "pylab" 인터페이스도 있지만 사용은 권장되지 않는다. SciPy는 Matplotlib을 활용한다. plt로 많이 naming하여 사용한다. Jupyter Notebook 유저의 경우 matplotlib의 결과가 o..

서울시 CCTV 분석하기 프로젝트 4.Pandas 데이터 merge를 이용해서 병합하기 1. merge를 이용한 데이터 병합을 진행해보자 left = pd.DataFrame( { "key":["K0", "K4", "K2", "K3"], "A":["A0", "A1", "A2", "A3"], "B":["B0", "B1", "B2", "B3"], } ) right = pd.DataFrame( { "key":["K0", "K1", "K2", "K3"], "C":["C0", "C1", "C2", "C3"], "D":["D0", "D1", "D2", "D3"], } ) 2. left 데이터 left 3.right 데이터 right 4.key 컬럼 기준으로 병합 pd.merge(left, right, on="key"..

서울시 CCTV 분석하기 프로젝트 3.Pandas로 데이터 읽기(4) (인구현황 데이터 훑어보기) 1. 서울시 인구 데이터 확인 pop_Seoul.head() 2. 첫 행(0번)의 소계 데이터는 필요없다. 행을 지우는 명령 → drop pop_Seoul.drop([0], inplace=True) pop_Seoul.head() 3. unique 조사 pop_Seoul["구별"].unique() len(pop_Seoul["구별"].unique()) 4. 외국과 고령자 비율을 만들어준다. 데이터가 행이 25개인데, 딱 한줄로 의도하는 바를 이룬다. 컬럼 연산이 편하다는 것이 Python의 장점 pop_Seoul["외국인비율"]=pop_Seoul["외국인"]/pop_Seoul["합계"]*100 pop_Seoul..

서울시 CCTV 분석하기 프로젝트 3.Pandas로 데이터 읽기(3) 48. CCTV_Seoul = pd.read_csv("../data/01.Seoul_CCTV.csv", encoding='cp949') CCTV_Seoul.head() CCTV의 앞 부분 데이터를 확인한다. 49. 가장 CCTV를 적게 보유한 구 확인하기 CCTV_Seoul.sort_values(by="총계", ascending=True).head(5) 50. 가장 CCTV를 많이 보유한 구 확인하기 CCTV_Seoul.sort_values(by="총계", ascending=False).head(5) 51. 최근증가율을 구하려는데 Type 오류가 뜬다. 해결해보자. TypeError Traceback (most recent call l..

서울시 CCTV 분석하기 프로젝트 3.Pandas로 데이터 읽기(2) 25. import pandas as pd import numpy as np pandas는 통상적으로 pd로 import하고 수치해석적 함수가 많은 numpy는 통상적으로 np로 import한다. 26. s = pd.Series([1, 3, 5, np.nan, 6, 8]) s Pandas의 데이터형을 구성하는 기본은 Series이다. 27. dates = pd.date_range("20230131", periods=6) dates 날짜(시간)을 이용할 수 있다. 28. df = pd.DataFrame(np.random.randn(6, 4), index=dates, columns=["A", "B", "C", "D"]) df pandas에..

서울시 CCTV 분석하기 프로젝트 3.Pandas로 데이터 읽기(1) Pandas Pandas는 데이터 조작 및 분석을 위한 Python 프로그래밍 언어 용으로 작성된 소프트웨어 라이브러리이다. 숫자 테이블과 시계열을 조작하기 위한 데이터 구조와 연산을 제공하며, 무료 소프트웨어 New BSD 라이센스이다. pandas란 이름은 한 개인에 대해 여러 기간동안 관찰을 한다는 데이터 세트에 대한 계량 경제학 용어인 "패널 데이터"라는 용어에서 파생되었다. 또한 "Python 데이터 분석"이라는 문구 자체에서 따온 것이기도 하다. Wes McKinney 는2007년부터 2010년까지 연구원으로 있을 때 AQR Capital에서 pandas를 만들기 시작했다. 통합 인덱싱으로 데이터 조작을 위한 Data Fra..

서울시 CCTV 분석하기 프로젝트 2. 데이터확보 1. 구글에 서울시 자치구 연도별 cctv 설치 현황 검색 2. 검색 결과에서 최신 버전을 다운받는다. 3. 파일명은 시스템 호환을 위해 영문으로 변경해준다. * 엑셀에서 데이터 한글 깨짐 현상 발생 시 1) 메모장으로 파일을 들어가준다. 2) 다른이름으로 저장에서 인코딩을 ANSI로 설정해준다. 4. 서울 열린데이터 광장 - 공공데이터 - 공공데이터 5. 공공데이터 결과에서 서울시 주민등록인구 (구별) 통계를 찾는다. 6. 주민등록인구에서 다운로드를 누른다. 7.다운로드 진행 8. 시스템 호환을 위해 파일명을 영문으로 변경해준다.