관리 메뉴

RUBY

[통계]모집단과 표본 분포 1)모집단과 표본 본문

데이터 분석/통계

[통계]모집단과 표본 분포 1)모집단과 표본

ruby-jieun 2023. 11. 14. 16:44

 

 

 

 

통계
5. 모집단과 표준 분포

 


 

모집단과 표본의 정의

 


 

 

 

1. 모집단과 표본

 

모집단(Population), 표본(Sample)

 

 

 

표본추출(Sampling)

  • 모집단으로 부터 표본을 추출 하는 것을 Sampling이라고 하며, 표본으로부터 그 특성을 찾아내고 모집단의 
    특성을 추론하고자 함

 

모집단에서 표본을 추출하는 방법에는 여러가지가 있음

 

 

복원추출(Sampling with replacement)

  • 모집단에서 데이터를 추출 할 때 하나를 추출하고 다시 넣고 추출하는 방법으로 동일한 표본이 추출 될 수 있음

 

비복원추출(Sampling without replacement)

  • 모집단에서 데이터를 추출 할 때 하나를 추출하고 다시 넣지 않고 추출하는 방법

 

Random Sampling

  • 모집단에서 데이터를 추출할 때 주의할 점은 편향되지 않아야 함, 각 개체가 모두 동일한 확률로 추출하는 방법

 

불균형 데이터(Imbalanced Data)의 문제

 

 

데이터가 불균형 데이터 일 경우 문제가 생김

 

 

우리가 예측모형을 만드는 목적은 관심이 있는 대상이 발생할 확률을 예측하는 경우가 대부분임, 그런데 예측 대상이 전체 대비 아주 낮다면? 모형의 성능이 괜찮을가? (ex: 신용 평가 모형 개발, 제조 불량 예측 등)

 

  1. Sampling 기법을 통하여 해결
  2. 모델을 통한 성능 개선(ex: Cost-sensitive learning)

 

 

Sampling 기법

  • 관심의 대상의 아주 비율이 낮은 경우

 

 

Over Sampling

  • 타겟 데이터 적은 class의 수를 많은 class의 비율만큼 증가 시킴(일정 비율로 복원추출 하는 개념) 
  • 과도적합의 문제 발생할 수 있음

 

 

Under sampling

  • 타겟 데이터의 많은 class의 수를 적은 class의 비율만큼 감소 시킴
  • 임의로 뽑은 데이터가 biased(편향)될 수 있고, 모형의 성능이 떨어질 수 있음

 

 

 

 

 

 

 

2. 표본 분포

 

 

 

 

통계량(Statistic)

  • 표본에 기초하여 계산되는 수치 함수를 통계량이라고 함

 

 

표본분포(Sampling distribution)

  • 통계량들이 이루는 분포를 표본 분포라고 함

 

 

표본 평균(Sample mean)

 

 

 

 

 

 

 

 

 

중심극한 정리(central limit theorem)

 

 

 

 

 

 

 

Comments