'머신러닝(machine learning)' 카테고리의 글 목록

Notice

Recent Posts

Recent Comments

Link

« 2025/07 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

Tags more

Archives

Today

Total

관리 메뉴

목록머신러닝(machine learning) (6)

Meiren

[ML/preprocessing] Data Scaling (데이터 스케일링)

When? 데이터의 값이 너무 크거나 너무 작은 경우, ( = 특성별로 값의 스케일이 다르면) 모델 학습 과정에서 0으로 수렴하거나 무한히 발산해버림 What? 데이터 값의 범위(스케일)를 조정 scaler.fit() : train set에만 적용, 데이터 변환을 학습 scaler.transform() : 실제로 데이터 변환을 수행, train & teset 모두 적용 MinMax - 모든 feature가 0 ~ 1사이에 위치 - 이상치가 존재할 경우, 매우 좁은 범위로 압축될 수 있음 Standard - N ~ (0, 1) - 각 feature의 평균이 0, 분산이 1 - 모든 feature들이 같은 스케일을 갖게됨 - 이상치로부터 영향을 많이 받음 - 데이터의 최소/최대값을 모를 떄 사용 Robust..

머신러닝(machine learning) 2022. 11. 29. 18:54

[ML/Evaluation] Confusion Matrix (모델 성능 평가 지표, 오차행렬)

pre linear model > R-squre, MSE 분류모델의 성능 평가? 정확도(Accuracy) 정밀도(Precision) 재현율(Recall) F1 Score Confusion Matrix (오차행렬) traing을 통한 prdiction 성능 측정을 위해, 예측값과 실제값을 비교하는 표 Accuracy(정확도) - 전체 중 모델이 바르게 분류한 비율 - 대각선 부분 - TruePositve + TrueNegative Precision(정밀도) - 모델이 positive라 분류한 것 중 실제값이 positive 인 비율 - 왼쪽 세로 - TruePositive / Positive(True + False) Recall(재현도) - 실제값이 positive인것 중 모델이 positive라 분류한 ..

머신러닝(machine learning) 2022. 11. 29. 18:17

[ML] LogisticRegression(로지스틱 회귀)

로지스틱 회귀란? 회귀를 사용하여 데이털가 어떤 범주에 속할 확률을 0에서 1사이의 값으로 예측하고, 그 확률에 따라 가능성이 높은 범주에 속하는 것으로 분류 회귀로 연속적인 결과를 시그모이드 함수로 표준화시켜서 특정값을 기준으로 나누어 분류한다 다중회귀분석 + 시그모이드 함수 = 최종 값 - 시그모이드 함수 : 음의 무한대 ~ 양의 무한대까지의 실수값 -> 0~ 1의 실수값으로 1:1 대응 로지스틱 회귀로 이진 분류 - 데이터를 이진 분류 문제로 바꾸어서 분류 실습 로지스틱 회귀로 다중 분류 - 원래 데이터 그대로 분류 실습 linear regression(선형) vs logistic regression linear regression - 주어진 데이터에 대해 0 ~ 100사이의 값(y)를 예측 - g..

머신러닝(machine learning) 2022. 11. 29. 17:59

[ML/전처리] Imbalanced Data Sampling

클래스 불균형을 해결하기 위한 다양한 샘플링 기법 under sampling - 다수의 클래스 데이터 제거하여 > 처리 속도 증대 - 클래스 오버랩 감소 - 데이터 제거로 인한 정보 손실 over sampling - 소수의 클래스 데이터 수를 증대시켜 불균형 해소\ - 데이터 중복 생성인해 -> overfitting 문제가 있음 - 데이터 증대에 따른 학습 시간 증대의 단점 RandomOverSampling - 소수 클래스 샘플을 랜덤하게 선택 > 그 수를 늘림 - 데이터가 단순히 복제됨 - 따라서 데이터의 값이 변하지 않고 수가 늘어 > 가중치가 높아짐 - 과적합 문제 야기 - 연속형 변수만 가능 SMOTE - oversampling - 소수 클래스에서 knn을 활용해 가상의 데이터 생성 - 각 샘플의..

머신러닝(machine learning) 2022. 11. 29. 16:54

[ML/전처리] Data Sampling

Data Sampling? 필요성 - 대용량의 데이터의 처리속도를 높이기 위해, 데이터를 학습에 최적화 시킬 필요가 커짐 방법 확률적 샘플링 : 통계기반 비확률적 샘플링 : 주관개입 샘플링 확률적 샘플링 - 단순 랜덤 샘플링 : 전체데이터 > 무작위 - 2단계 샘플링 : m개의 하위 모집단으로 분리 > m개의 하위 모집단 중 N개의 데이터를 단순 랜덤 샘플링 - 층별 샘플링 : 각 증에 n개씩 랜덤하게 데이터를 추출 - 군집/집락 샘플링 : 군집 중 하나 or 여러개의 군집 선정 후 선정된 군집의 전체 데이터 사용 - 계통 샘플링 : 데이터에 1~ n까지 번호를 매겨서, 일정 간격마다 하나씩 데이터 추출 (시계열 데이터 대표값 추출에 적합) 비확률적 샘플링 - 편의 샘플링(convenience) : 데이..

머신러닝(machine learning) 2022. 11. 29. 16:18

[ML/전처리] encoding - label vs onehot

Categorical Encoding 범주형 변수를 머신러닝에 사용하려면, numerical 변수로 바꿔야한다. 그 방법에는 2가지가 있다. - label encoding : 순서가 있을 때, 고유값의 개수가 많아 one-hot 의 경우 메모리 소비가 많을 때 - One-Hot Encoding : 순서가 없을 때, 고유값 개수가 많지 않아 효율적인 경우 Label Encoding 순서를 가진 categorical feature - 의미 : 범주형 변수를 수치형 변수로 변경하는 것 - 표현 : n개의 범주형 데이터를 0부터 n-1까지의 연속적 수치 데이터로 표현 - 유의 : 인코딩 결과가 수치적 차이를 의미하진 않음 LabelEncoder from sklearn.preprocessing import Lab..

머신러닝(machine learning) 2022. 11. 29. 16:05

이전 Prev 1 Next 다음

목록머신러닝(machine learning) (6)

Meiren

티스토리툴바