[ML/전처리] Data Sampling

Notice

Recent Posts

Tags more

Archives

관리 메뉴

Meiren

머신러닝(machine learning)

meiren 2022. 11. 29. 16:18

필요성

- 대용량의 데이터의 처리속도를 높이기 위해, 데이터를 학습에 최적화 시킬 필요가 커짐

방법

- 단순 랜덤 샘플링 : 전체데이터 > 무작위

- 2단계 샘플링 : m개의 하위 모집단으로 분리 > m개의 하위 모집단 중 N개의 데이터를 단순 랜덤 샘플링

- 층별 샘플링 : 각 증에 n개씩 랜덤하게 데이터를 추출

- 군집/집락 샘플링 : 군집 중 하나 or 여러개의 군집 선정 후 선정된 군집의 전체 데이터 사용

- 계통 샘플링 : 데이터에 1~ n까지 번호를 매겨서, 일정 간격마다 하나씩 데이터 추출 (시계열 데이터 대표값 추출에 적합)

- 편의 샘플링(convenience) : 데이터 수집하기 좋은 시점이나 위치를 선정하여 샘플링

- 판단 샘플링(purpose) : 목적에 가장 적합한 대상이라고 생각하는 대상 선택

- 할당 샘플링(quota) : 모집단을 세그먼트로 구분해 > 각 세그먼트에 표본 수를 나타내는 쿼타를 할당

층별샘플링 방법과 유사하지만, 표본이 확률에 따라 선택되지 않고 주관적 판단에 따른 선택

[ML/preprocessing] Data Scaling (데이터 스케일링) (1)	2022.11.29
[ML/Evaluation] Confusion Matrix (모델 성능 평가 지표, 오차행렬) (0)	2022.11.29
[ML] LogisticRegression(로지스틱 회귀) (1)	2022.11.29
[ML/전처리] Imbalanced Data Sampling (0)	2022.11.29
[ML/전처리] encoding - label vs onehot (0)	2022.11.29

'머신러닝(machine learning)' Related Articles