목록데이터 분석/통계 (6)
RUBY
통계 5. 모집단과 표준 분포 모집단과 표본의 정의 1. 모집단과 표본 모집단(Population), 표본(Sample) 표본추출(Sampling) 모집단으로 부터 표본을 추출 하는 것을 Sampling이라고 하며, 표본으로부터 그 특성을 찾아내고 모집단의 특성을 추론하고자 함 모집단에서 표본을 추출하는 방법에는 여러가지가 있음 복원추출(Sampling with replacement) 모집단에서 데이터를 추출 할 때 하나를 추출하고 다시 넣고 추출하는 방법으로 동일한 표본이 추출 될 수 있음 비복원추출(Sampling without replacement) 모집단에서 데이터를 추출 할 때 하나를 추출하고 다시 넣지 않고 추출하는 방법 Random Sampling 모집단에서 데이터를 추출할 때 주의할 점은 ..
통계 4. 확률 분포 2) 연속형 확률 분포 통계학에서 자주 사용하는 분포에 대해서 설명 2. 연속형 확률 분포 확률밀도함수(probability density function) 연속형 확률 변수 X에 대해서 함수 f(x)가 아래의 조건을 만족하면 확률밀도함수라고 함 확률 밀도 함수의 성질 확률밀도함수의 평균과 분산 누적분포함수(cumulative density function) 확률밀도함수를 적분하면 누적분포함수가 됨 누적분포함수의 성질 균일분포(uniform distribution) 확률 변수가 X가 a와 b사이에서 아래와 같은 확률 밀도 함수(pdf)를 같음 균일 분포의 평균, 분산 정규 분포(normal distribution) 정규 분포는 19세기 최대 수학자라고 불리는 독일의 가우스에 의해 제..
통계 4. 확률 분포 1) 이산형 확률 분포 통계학에서 자주 사용하는 분포에 대해서 설명 1. 이산형 확률 분포 확률 분포(probability distribution) 확률 변수 X가 취할 수 있는 모든 값과 그 값을 나타날 확률을 표현한 함수 이산형 확률 분포 베르누이 분포 이항분포 포아송분포 기하분포 음이항분포 초기하분포 연속형 확률 분포 균일분포 정규분포 감마분포 지수분포 카이제곱분포 베타분포 이산형 균등 분포(discrete uniform distribution) 확률 변수 X가 유한개이고, 모든 확률 변수에 대하여 균일한 확률을 갖는 분포를 이산형 균등 분포라고 함 주사위를 한번 굴려서 나오는 숫자를 확률 변수 X라고 하면, 확률 변수 X는 아래와 같음 이산형 균등분포의 기대값 베르누이 시행(..
통계 3. 확률 이론 통계학에서 사용하는 확률 변수의 개념 설명 1. 확률 확률(probability) 모든 경우의 수에 대한 특정 사건이 발생하는 비율이다. 대체로 수학 외에서는, 0과 1 사이의 소수 혹은 분수나 순열 등으로 나타내기 보다는, 다른 비율을 나타낼 때처럼 0과 1 사이의 확률에 100을 곱하여 0과 100 사이의 백분율(%)로 나타내거나 옛날처럼 할·푼·리로 나타내기도 한다. 확률의 고전적 정의 어떤 사건의 발생 확률은 그것이 일어날 수 있는 경우의 수 대 가능한 모든 경우의 수의 비이다. 단, 이는 어떠한 사건도 다른 사건들보다 더 많이 일어날 수 있다고 기대할 근거가 없을 때, 그러니까 모든 사건이 동일하게 일어날 수 있다고 할 때에 성립한다. (확률의 최초의 정의는 수학자 라플라스..
통계 2. 데이터의 이해 데이터에 대한 이해와 기초적인 통계량에 대한 설명 1. 데이터와 그래프 변수(Variable) 수학에서의 변수란, 어떤 정해지지 않은 임의의 값을 표현하기 위해 사용된 '기호' 이다. 보통 쉽게 설명하기 위해서 '변하는 숫자' 라는 표현을 자주 쓰고는 한다. 통계학에서는 조사 목적에 따라 관측된 자료값을 변수라고 함, 해당 변수에 대하여 관측된 값들이 바로 자료(Data)가 됨 질적 자료 관측된 데이터가 성별, 주소지(시군구), 업종 등과 같이 몇 개의 범주로 구분하여 표현할 수 있는 데이터를 의미함 데이터 입력시 1은 남자, 2는 여자로 표현 가능하나 여기서 숫자의 의미는 없음 (순서형 변수: 교육수준, 건강상태) 양적 자료 관측된 데이터가 숫자의 형태로 숫자의 크기가 의미를 ..
통계 1. 기초 통계학 개요 통계학(statistics) 산술적 방법을 기초로 하여, 주로 다량의 데이터를 관찰하고 정리 및 분석하는 방법을 연구하는 수학의 한 분야이다. 근대 과학으로서의 통계학은 19세기 중반 벨기에의 케틀레가 독일의 "국상학(國狀學, Staatenkunde, 넓은 의미의 국가학)"과 영국의 "정치 산술(Political Arithmetic, 정치 사회에 대한 수량적 연구 방법)"을 자연과학의 "확률 이론"과 결합하여, 수립한 학문에서 발전되었다. 기술통계학(descriptive statistics) 데이터를 수집하고 수집된 데이터를 쉽게 이해하고 설명할 수 있도록 정리 요약 설명하는 방법론 추론통계학(inferential statistics) 모집단으로 부터 추출한 표본 데이터를 분..