Notice
Recent Posts
Recent Comments
Link
일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
Tags
- 데이터
- dataanalyst
- 그룹
- warehouser
- dataanalysis
- 통계
- 전처리
- data
- GTM
- Python
- 데이터분석
- INSERTINTO
- engagement
- 특정컬럼
- 그로스마케터
- categorical
- WAU
- 데이터분석가
- 코테
- 데이터가공
- 표본
- 리텐션
- onehot
- row추가
- sql로데이터
- 이전행
- SQL
- ABTest
- pvalue
- DAU
Archives
- Today
- Total
목록SMOTE (1)
Meiren
[ML/전처리] Imbalanced Data Sampling
클래스 불균형을 해결하기 위한 다양한 샘플링 기법 under sampling - 다수의 클래스 데이터 제거하여 > 처리 속도 증대 - 클래스 오버랩 감소 - 데이터 제거로 인한 정보 손실 over sampling - 소수의 클래스 데이터 수를 증대시켜 불균형 해소\ - 데이터 중복 생성인해 -> overfitting 문제가 있음 - 데이터 증대에 따른 학습 시간 증대의 단점 RandomOverSampling - 소수 클래스 샘플을 랜덤하게 선택 > 그 수를 늘림 - 데이터가 단순히 복제됨 - 따라서 데이터의 값이 변하지 않고 수가 늘어 > 가중치가 높아짐 - 과적합 문제 야기 - 연속형 변수만 가능 SMOTE - oversampling - 소수 클래스에서 knn을 활용해 가상의 데이터 생성 - 각 샘플의..
머신러닝(machine learning)
2022. 11. 29. 16:54