일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | 5 | ||
6 | 7 | 8 | 9 | 10 | 11 | 12 |
13 | 14 | 15 | 16 | 17 | 18 | 19 |
20 | 21 | 22 | 23 | 24 | 25 | 26 |
27 | 28 | 29 | 30 |
- GTM
- 데이터가공
- 데이터분석가
- categorical
- onehot
- sql로데이터
- WAU
- dataanalyst
- ABTest
- 리텐션
- 그룹
- pvalue
- 그로스마케터
- 데이터
- 코테
- 통계
- INSERTINTO
- 표본
- warehouser
- Python
- row추가
- SQL
- engagement
- data
- 전처리
- dataanalysis
- DAU
- 이전행
- 데이터분석
- 특정컬럼
- Today
- Total
목록전체 글 (43)
Meiren
os란? 절대경로 vs 상대경로 터미널 실행 및 기본 명령어 1. 컴퓨터 OS (운영체제) 하드웨어 : cpu, ram, (입출력장치 : main board, monitor, mouse) software + hardware를 연결시켜주는 기반이 되는 시스템 프로그램이 동작하기 위해 기반이 되는 환경 컴퓨터를 떴을 때 확인이 가능한 윈도우/맥 로고 크롬(웹브라우저), 오피스 등..을 설치해서 이용 가능 운영체제 어플리케이션은 운영체제에 의존적이다. exe 타입 == windows에서만 실행가능 / mac OS에서는 실행 불가 python, pytorch 또한 window/mac OS에서 사용하는 것들이 다르다. python interpreter도 운영체제에 의존적이다. 2. 파일 시스템(File Syste..
목차 1. 데이터 설계 목적 2. 파이프라인의 단계 및 유의점 1) 데이터 정의 2) 데이터 수량/단가/기간 설정 3) 작업자 모집 및 교육 4) 파일럿 프로젝트 진행 5) 프로젝트 진행 및 완료 1. 데이터 설계의 목적 OCR 서비스 구현을 위한 학습데이터셋 구축 2. 파이프라인의 단계 및 유의점 1) [외부] 필요한 데이터에 대한 정의 - 가공 조건 : 고객사와의 미팅을 통해 요구사항을 정의하고 협의함 - 특정 언어 가능 및 구사 정도 - 공백 제거 - 태깅 순서 재배열 등 - 유의점 : 추후 파일럿 프로젝트를 진행하여 결과데이터에 고객사의 니즈가 모두 포함되었는지 재확인이 필요함 2) [내/외부] 데이터 셋 수량/단가/기간 설정 2-1) 데이터 가공/생산하는데 드는 단가(비용) 측정 - 가공 조건에..

학습 기록용 컨텐츠 복붗 및 요약한 내용임. 아래 참고 자료(링크)가 원본임 목차 1. p-value와 a/b test 1-1. 결과 해석 시 유의점 1-2. 가설검정 1-3. 두 가지 오류 1-4. p-value 1-5. 유의하지 않은 결과, 그 후 2. 문제 제기(결과 및 실험 과정에 대한) 2-1. 효과 크기를 무시한 유의성 검정 2-2. 적절한 표본 크기 정하기 2-3. 실험이 안 끝났는데 결과 살펴보기 2-4. 현실적인 문제 3. 결론 Summary p-value는 통계적 유의성 확보를 위한 도구이지, 실험 결과의 중요성을 평가하는 지표가 아니다. 실험 결과가 현실적으로 어떤 중요성을 갖는지 판단해야한다. 결과를 얼마나 믿을 수 있는지는 다음 문제다. 1. p-value와 a/b test 1-1..
A/B test 통계적 검정시 t - Test가 자주 사용됨 독립표본 t검정 사용의 조건 1. 독립성 - 두 그룹간 상호 독립성이 만족되어야 함 - MECE 2. 등분산성 - 두 그룹간의 분포가 동일하다 - python : 바틀렛 검정, 플리그너 검정, 레빈 검정 - 이분산인 경우, 이분산 t검정 (welch's test)로 대체하는 방법이 존재함 3. 정규성 - 이러한 통계적 검정 기준을 맞추다보면... 실제 데이터 중에 남는 데이터가 없다 - 그래서 이러한 기준을 완화한 유의미한 기준에 관한 논문이 나옴 아래의 수준에 든다면 어느정도 정규분포를 크게 벗어나지 않을 것으로 추정 - 왜도(skewness, 분포의 비대칭 정도) < 2 - 첨도(kurtosis, 분포의 꼬리부분의 길이와 중앙부분의 뾰족함에..
WAU(engagement) 분석에 필요한 쿼리문 출처 Engagement Analysis with SQL Navigate Tables SELECT * FROM tutorial.yammer_events e LIMIT 5 Event-level Aggregation (이벤트 레벨 분할) 1. engagement로 분류되는 이벤트 리스트 확인 SELECT DISTINCT event_name, event_type FROM tutorial.yammer_events ORDER BY event_type, event_name 2. 7월과 8월의 engagement 차이 추론 with one as( SELECT EXTRACT('month' FROM occurred_at) as month, count(event_name)..

SUMMARY - row 추가 함수. 단 2가지 방법 - 데이터의 모든 열에 대한 값 추가 - 삽입할 특정 열을 정해 일부만 추가 1. 모든 열에 대한 값 추가 INSERT INTO Customers (CustomerName, COntactName, Address, City, PostalCode, Country) VALUES ('Cardinal', 'Tom B. Erichsen', 'skagen 21', 'Stavanger', '4005, 'Norway') 2. 지정된 열에만 데이터 삽입 추가된 row에 지정되지 않는 열(컬럼)은 null 값으로 표기됨 INSERT INTO Customers(CutomerName, City, COuntry( VALUES ('Cardinal', 'Stavanger', 'N..

목차 1. SUMMARY 2. INNER JOIN 3. OUTER JOIN 3-1. LEFT JOIN 3-2. RIGHT JOIN 3-3. FULL OUTER JOIN 3-4. upgrade OUTER JOIN 4. SELF JOIN 5. CROSS JOIN 1. SUMMARY join? 두 개의 테이블을 서로 붂어 하나의 결과를 만들어 내는 것 INNER JOIN (내부조인) : 두 테이블을 조인할 때, 두 테이블에 모두 지정한 열의 데이터가 있어야 함 OUTER JOIN (외부 조인) : 두 테이블을 조인할 때, 1개의 테이블에만 데이터가 있어도 결과가 나옴 SELF JOIN (자체 조인) : 자신이 자신과 조인함, 1개의 테이블 사용 CROSS JOIN (상호 조인) : 한쪽 테이블의 모든 행과 다..
목차 1. SUMMARY 2. LAG 2-1. LAG 의미 2-2. offset 2-3. 예제 3. LEAD 3-1. LEAD() 의미 3-2. LEAD() 함수 구문 3-3. offset 3-4. 예제 1. summary 현재 행과 이전 행 간의 차이를 계산하는데 유용한 함수 LAG() : 현재 행에서 이전 행을 볼 수 있도록 함 LEAD() : 현재 행에서 다음 행을 볼 수 있도록 함 2. LAG 2-1. LAG 의미 - 해당 파티션 또는 결과 집합 내의 행 수 만큼 현재 행 앞에 있는 생에서 값을 반환한다 - [SQL 문법] PARTITION BY(파티션 분할)과 ROW_NUMBER() OVER() 정리 - 여러 행을 되돌아보고 연재 행에서 해당 행의 데이터에 액세스 할 수 있는 윈도우 함수 2-2..