일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- 전처리
- dataanalyst
- SQL
- sql로데이터
- 데이터
- INSERTINTO
- 데이터분석가
- DAU
- 이전행
- engagement
- 코테
- GTM
- pvalue
- 통계
- dataanalysis
- 그로스마케터
- data
- 특정컬럼
- ABTest
- WAU
- 데이터가공
- onehot
- row추가
- warehouser
- categorical
- 표본
- 데이터분석
- Python
- 그룹
- 리텐션
- Today
- Total
목록머신러닝(machine learning) (6)
Meiren
When? 데이터의 값이 너무 크거나 너무 작은 경우, ( = 특성별로 값의 스케일이 다르면) 모델 학습 과정에서 0으로 수렴하거나 무한히 발산해버림 What? 데이터 값의 범위(스케일)를 조정 scaler.fit() : train set에만 적용, 데이터 변환을 학습 scaler.transform() : 실제로 데이터 변환을 수행, train & teset 모두 적용 MinMax - 모든 feature가 0 ~ 1사이에 위치 - 이상치가 존재할 경우, 매우 좁은 범위로 압축될 수 있음 Standard - N ~ (0, 1) - 각 feature의 평균이 0, 분산이 1 - 모든 feature들이 같은 스케일을 갖게됨 - 이상치로부터 영향을 많이 받음 - 데이터의 최소/최대값을 모를 떄 사용 Robust..

pre linear model > R-squre, MSE 분류모델의 성능 평가? 정확도(Accuracy) 정밀도(Precision) 재현율(Recall) F1 Score Confusion Matrix (오차행렬) traing을 통한 prdiction 성능 측정을 위해, 예측값과 실제값을 비교하는 표 Accuracy(정확도) - 전체 중 모델이 바르게 분류한 비율 - 대각선 부분 - TruePositve + TrueNegative Precision(정밀도) - 모델이 positive라 분류한 것 중 실제값이 positive 인 비율 - 왼쪽 세로 - TruePositive / Positive(True + False) Recall(재현도) - 실제값이 positive인것 중 모델이 positive라 분류한 ..
로지스틱 회귀란? 회귀를 사용하여 데이털가 어떤 범주에 속할 확률을 0에서 1사이의 값으로 예측하고, 그 확률에 따라 가능성이 높은 범주에 속하는 것으로 분류 회귀로 연속적인 결과를 시그모이드 함수로 표준화시켜서 특정값을 기준으로 나누어 분류한다 다중회귀분석 + 시그모이드 함수 = 최종 값 - 시그모이드 함수 : 음의 무한대 ~ 양의 무한대까지의 실수값 -> 0~ 1의 실수값으로 1:1 대응 로지스틱 회귀로 이진 분류 - 데이터를 이진 분류 문제로 바꾸어서 분류 실습 로지스틱 회귀로 다중 분류 - 원래 데이터 그대로 분류 실습 linear regression(선형) vs logistic regression linear regression - 주어진 데이터에 대해 0 ~ 100사이의 값(y)를 예측 - g..
클래스 불균형을 해결하기 위한 다양한 샘플링 기법 under sampling - 다수의 클래스 데이터 제거하여 > 처리 속도 증대 - 클래스 오버랩 감소 - 데이터 제거로 인한 정보 손실 over sampling - 소수의 클래스 데이터 수를 증대시켜 불균형 해소\ - 데이터 중복 생성인해 -> overfitting 문제가 있음 - 데이터 증대에 따른 학습 시간 증대의 단점 RandomOverSampling - 소수 클래스 샘플을 랜덤하게 선택 > 그 수를 늘림 - 데이터가 단순히 복제됨 - 따라서 데이터의 값이 변하지 않고 수가 늘어 > 가중치가 높아짐 - 과적합 문제 야기 - 연속형 변수만 가능 SMOTE - oversampling - 소수 클래스에서 knn을 활용해 가상의 데이터 생성 - 각 샘플의..
Data Sampling? 필요성 - 대용량의 데이터의 처리속도를 높이기 위해, 데이터를 학습에 최적화 시킬 필요가 커짐 방법 확률적 샘플링 : 통계기반 비확률적 샘플링 : 주관개입 샘플링 확률적 샘플링 - 단순 랜덤 샘플링 : 전체데이터 > 무작위 - 2단계 샘플링 : m개의 하위 모집단으로 분리 > m개의 하위 모집단 중 N개의 데이터를 단순 랜덤 샘플링 - 층별 샘플링 : 각 증에 n개씩 랜덤하게 데이터를 추출 - 군집/집락 샘플링 : 군집 중 하나 or 여러개의 군집 선정 후 선정된 군집의 전체 데이터 사용 - 계통 샘플링 : 데이터에 1~ n까지 번호를 매겨서, 일정 간격마다 하나씩 데이터 추출 (시계열 데이터 대표값 추출에 적합) 비확률적 샘플링 - 편의 샘플링(convenience) : 데이..

Categorical Encoding 범주형 변수를 머신러닝에 사용하려면, numerical 변수로 바꿔야한다. 그 방법에는 2가지가 있다. - label encoding : 순서가 있을 때, 고유값의 개수가 많아 one-hot 의 경우 메모리 소비가 많을 때 - One-Hot Encoding : 순서가 없을 때, 고유값 개수가 많지 않아 효율적인 경우 Label Encoding 순서를 가진 categorical feature - 의미 : 범주형 변수를 수치형 변수로 변경하는 것 - 표현 : n개의 범주형 데이터를 0부터 n-1까지의 연속적 수치 데이터로 표현 - 유의 : 인코딩 결과가 수치적 차이를 의미하진 않음 LabelEncoder from sklearn.preprocessing import Lab..