일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 통계
- engagement
- data
- WAU
- 이전행
- categorical
- 전처리
- 그룹
- 표본
- pvalue
- 데이터가공
- GTM
- 특정컬럼
- 데이터분석
- warehouser
- dataanalyst
- sql로데이터
- dataanalysis
- 리텐션
- INSERTINTO
- Python
- 코테
- ABTest
- SQL
- onehot
- 데이터분석가
- 그로스마케터
- DAU
- 데이터
- row추가
- Today
- Total
목록전처리 (2)
Meiren
클래스 불균형을 해결하기 위한 다양한 샘플링 기법 under sampling - 다수의 클래스 데이터 제거하여 > 처리 속도 증대 - 클래스 오버랩 감소 - 데이터 제거로 인한 정보 손실 over sampling - 소수의 클래스 데이터 수를 증대시켜 불균형 해소\ - 데이터 중복 생성인해 -> overfitting 문제가 있음 - 데이터 증대에 따른 학습 시간 증대의 단점 RandomOverSampling - 소수 클래스 샘플을 랜덤하게 선택 > 그 수를 늘림 - 데이터가 단순히 복제됨 - 따라서 데이터의 값이 변하지 않고 수가 늘어 > 가중치가 높아짐 - 과적합 문제 야기 - 연속형 변수만 가능 SMOTE - oversampling - 소수 클래스에서 knn을 활용해 가상의 데이터 생성 - 각 샘플의..

Categorical Encoding 범주형 변수를 머신러닝에 사용하려면, numerical 변수로 바꿔야한다. 그 방법에는 2가지가 있다. - label encoding : 순서가 있을 때, 고유값의 개수가 많아 one-hot 의 경우 메모리 소비가 많을 때 - One-Hot Encoding : 순서가 없을 때, 고유값 개수가 많지 않아 효율적인 경우 Label Encoding 순서를 가진 categorical feature - 의미 : 범주형 변수를 수치형 변수로 변경하는 것 - 표현 : n개의 범주형 데이터를 0부터 n-1까지의 연속적 수치 데이터로 표현 - 유의 : 인코딩 결과가 수치적 차이를 의미하진 않음 LabelEncoder from sklearn.preprocessing import Lab..