Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
Tags
- 이전행
- dataanalysis
- 데이터
- categorical
- ABTest
- warehouser
- 표본
- 전처리
- 그룹
- pvalue
- dataanalyst
- 데이터가공
- SQL
- data
- Python
- 코테
- 데이터분석가
- sql로데이터
- onehot
- 그로스마케터
- 리텐션
- row추가
- 통계
- GTM
- engagement
- DAU
- INSERTINTO
- WAU
- 데이터분석
- 특정컬럼
Archives
- Today
- Total
Meiren
[ML/전처리] Data Sampling 본문
Data Sampling?
필요성
- 대용량의 데이터의 처리속도를 높이기 위해, 데이터를 학습에 최적화 시킬 필요가 커짐
방법
- 확률적 샘플링 : 통계기반
- 비확률적 샘플링 : 주관개입 샘플링
확률적 샘플링
- 단순 랜덤 샘플링 : 전체데이터 > 무작위
- 2단계 샘플링 : m개의 하위 모집단으로 분리 > m개의 하위 모집단 중 N개의 데이터를 단순 랜덤 샘플링
- 층별 샘플링 : 각 증에 n개씩 랜덤하게 데이터를 추출
- 군집/집락 샘플링 : 군집 중 하나 or 여러개의 군집 선정 후 선정된 군집의 전체 데이터 사용
- 계통 샘플링 : 데이터에 1~ n까지 번호를 매겨서, 일정 간격마다 하나씩 데이터 추출 (시계열 데이터 대표값 추출에 적합)
비확률적 샘플링
- 편의 샘플링(convenience) : 데이터 수집하기 좋은 시점이나 위치를 선정하여 샘플링
- 판단 샘플링(purpose) : 목적에 가장 적합한 대상이라고 생각하는 대상 선택
- 할당 샘플링(quota) : 모집단을 세그먼트로 구분해 > 각 세그먼트에 표본 수를 나타내는 쿼타를 할당
층별샘플링 방법과 유사하지만, 표본이 확률에 따라 선택되지 않고 주관적 판단에 따른 선택
'머신러닝(machine learning)' 카테고리의 다른 글
[ML/preprocessing] Data Scaling (데이터 스케일링) (1) | 2022.11.29 |
---|---|
[ML/Evaluation] Confusion Matrix (모델 성능 평가 지표, 오차행렬) (0) | 2022.11.29 |
[ML] LogisticRegression(로지스틱 회귀) (1) | 2022.11.29 |
[ML/전처리] Imbalanced Data Sampling (0) | 2022.11.29 |
[ML/전처리] encoding - label vs onehot (0) | 2022.11.29 |