일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- dataanalyst
- Python
- 그룹
- GTM
- 데이터가공
- 그로스마케터
- dataanalysis
- sql로데이터
- row추가
- 특정컬럼
- 이전행
- categorical
- 데이터분석가
- onehot
- warehouser
- 전처리
- pvalue
- data
- 표본
- WAU
- 통계
- 데이터분석
- 코테
- INSERTINTO
- 리텐션
- 데이터
- ABTest
- engagement
- SQL
- DAU
- Today
- Total
목록데이터 (3)
Meiren
목차 1. 데이터 설계 목적 2. 파이프라인의 단계 및 유의점 1) 데이터 정의 2) 데이터 수량/단가/기간 설정 3) 작업자 모집 및 교육 4) 파일럿 프로젝트 진행 5) 프로젝트 진행 및 완료 1. 데이터 설계의 목적 OCR 서비스 구현을 위한 학습데이터셋 구축 2. 파이프라인의 단계 및 유의점 1) [외부] 필요한 데이터에 대한 정의 - 가공 조건 : 고객사와의 미팅을 통해 요구사항을 정의하고 협의함 - 특정 언어 가능 및 구사 정도 - 공백 제거 - 태깅 순서 재배열 등 - 유의점 : 추후 파일럿 프로젝트를 진행하여 결과데이터에 고객사의 니즈가 모두 포함되었는지 재확인이 필요함 2) [내/외부] 데이터 셋 수량/단가/기간 설정 2-1) 데이터 가공/생산하는데 드는 단가(비용) 측정 - 가공 조건에..

이미지를 포함한 모든 내용의 출처는 태블로 기초 30분 완정 정복입니다. 개인 학습용으로 작성한 게시물입니다. 데이터 원본을 태블로에 연결하면 컬럼에 따라 필드 역할과 유형이 결정됨 역할(Role) : 필드는 차원 또는 측정값으로 역할이 부여됨 유형(type) : 필드의 유형은 자동으로 문자열, 정수, 날짜와 같은 타입이 설정됨 단 해당 유형은 다른 유형으로 변경이 가능함 태블로 기본 컨셉 측정값 : 기본적으로 숫자형식, 액션을 통해 집계가 되면서 한 덩어리로 만들어짐 자원 : 한 덩어리의 측정값을 어떻게 나누어서 볼 것인지 결정 1. 태블로에 데이터 업로드 좌측 상단 > 데이터(패널?) > '데이터 연결' > 파일에 연결 :엑셀 > 다운로드 한 데이터(엑셀) 선택 > 연결 좌측 > 시트 > 특정 시트(..
클래스 불균형을 해결하기 위한 다양한 샘플링 기법 under sampling - 다수의 클래스 데이터 제거하여 > 처리 속도 증대 - 클래스 오버랩 감소 - 데이터 제거로 인한 정보 손실 over sampling - 소수의 클래스 데이터 수를 증대시켜 불균형 해소\ - 데이터 중복 생성인해 -> overfitting 문제가 있음 - 데이터 증대에 따른 학습 시간 증대의 단점 RandomOverSampling - 소수 클래스 샘플을 랜덤하게 선택 > 그 수를 늘림 - 데이터가 단순히 복제됨 - 따라서 데이터의 값이 변하지 않고 수가 늘어 > 가중치가 높아짐 - 과적합 문제 야기 - 연속형 변수만 가능 SMOTE - oversampling - 소수 클래스에서 knn을 활용해 가상의 데이터 생성 - 각 샘플의..