Meiren

[ML/전처리] Data Sampling 본문

머신러닝(machine learning)

[ML/전처리] Data Sampling

meiren 2022. 11. 29. 16:18

Data Sampling?

필요성

- 대용량의 데이터의 처리속도를 높이기 위해, 데이터를 학습에 최적화 시킬 필요가 커짐

 

방법

  • 확률적 샘플링 : 통계기반
  • 비확률적 샘플링 : 주관개입 샘플링

 

확률적 샘플링

- 단순 랜덤 샘플링 : 전체데이터 > 무작위

 

- 2단계 샘플링 : m개의 하위 모집단으로 분리 > m개의 하위 모집단 중 N개의 데이터를 단순 랜덤 샘플링

 

- 층별 샘플링 : 각 증에 n개씩 랜덤하게 데이터를 추출

 

- 군집/집락 샘플링 : 군집 중 하나 or 여러개의 군집 선정 후 선정된 군집의 전체 데이터 사용

 

- 계통 샘플링 : 데이터에 1~ n까지 번호를 매겨서, 일정 간격마다 하나씩 데이터 추출 (시계열 데이터 대표값 추출에 적합)

 

 

 

비확률적 샘플링

- 편의 샘플링(convenience) : 데이터 수집하기 좋은 시점이나 위치를 선정하여 샘플링

 

- 판단 샘플링(purpose) : 목적에 가장 적합한 대상이라고 생각하는 대상 선택

 

- 할당 샘플링(quota) : 모집단을 세그먼트로 구분해 > 각 세그먼트에 표본 수를 나타내는 쿼타를 할당

층별샘플링 방법과 유사하지만, 표본이 확률에 따라 선택되지 않고 주관적 판단에 따른 선택