Meiren

[데이터 분석] 프로덕트 분석 기법 - 기본(퍼널,AARRR,코호트,리텐션,A/B) 본문

데이터 분석(data analyst)

[데이터 분석] 프로덕트 분석 기법 - 기본(퍼널,AARRR,코호트,리텐션,A/B)

meiren 2023. 1. 8. 12:30

개인공부 필기용 블로그입니다 :) 

[데이터 분석] 컨텐츠 목차
1. 퍼널분석
1-1. AARRR
1-2. 리텐션
2. 코호트
2-1. 리텐션차트
3. A/B test
3-1. 신뢰구간
3-2. P-value
4. RFM

 

 

분석 배경
들어와서 여기저기 클릭도 하는데 왜 이 서비스를 그냥 두고 떠나는걸까?

 

 

1. 퍼널분석

1) 의미

시간의 흐름에 따라 유저의 유입과 이탈을 분석

사용자가 서비스를 사용하면서 마주하는 각 단계별 전환율을 숫자로 나타내는 것

유저들이 우리 서비스에 들어온 시점 ~ 서비스를 나가는 시점까지를 구간에 대한 데이터 분석하여 나가는 시점과 이유를 밝힘

 

2) 분석 포인트

이탈률이 높은 시점을 집중해서 분석하고 개선

 

3) Funnel 분석 특징

고품질 방문자 유입 경로 확인 가능함

  • 변환 트래픽이 많이 발생하는 곳을 발견하고 강화 가능
  • 변환 트래픽의 출처를 소스별로 필터링하여, 변환율이 높은 방문자들이 어떤 방식을 통해 웹사이트에 도달하는지 파악할 수 있음
  • 해당 유입 채널에 더 ㅁ낳은 노력을 기울여 최종적 변화율 높일 수 있음

 

 

 

 

1-1. AARRR by Dave McClure

1) 의미

퍼널의 구간을 5가지로 나누어, 각 단계의 이탈률을 측정하여 가장 높은 구간에 집중하는 분석기법

AARRR프레임을 통해 KPI를 설정한 경우, 앞단의 지표 개선이 선행되어야 해당 KPI의 개선시킬 수 있음

 

2) funnel of AARRR

  • 첫 방문(Acquisition)
    • 어떻게 우리 서비스를 접하고 있는가? >> DAU, MAU, 신규 사용자 등
    • 서비스 안정화 뒤, 시장 진입을 위해 공격적으로 마케팅을 할 때 집중하는 지표
    • 여러 채널을 통해 얼마나 많은 상요자가 유입되고 / 신규 사용자는 얼마나 유입 됐는지 등 파악
    • 좋은 채널 : 적은 비용으로 높은 효과를 일으키는 채널
  • 첫 회원가입(Activation)
    • 사용자가 처음 서비스를 이용할 때 긍정적인 경험을 제공하는가?
      >> 이탈률(bounce rate), 종료율(exit rate), PV, 체류시간, 가입 등
    • 사용자가 서비스를 이용하기 전에 이탈하는 비율 측정
    • 서비스 이요 시작 후, engagement 측정
    • 이탈률: 첫 페이지에서 서비스를 종료한 비율로, 부정적인 사용자 경험 지표
  • 첫 구매(Revenue)
    • 최종 목적(매출)로 연결되고 있는가? >> 전환율, 고객생애가치(CLTV), ROAS, ROI
    • ROAS
    • ROI
    • 서비스를 유지하기 위한 수익모델
    • 서비스를 이용하는 사용자의 conversion rate(전환율)을 높이는 것
  • 재 구매(Retention)
    • 이후의 서비스 재사용률 또는 재방문율이 어떻게 되는가? >> retention rate
    • 사업 초기 중요한 지표 중 하나 retention
    • retention rate : 서비스 만족도를 가장 잘 대변하는 지표
    • 서비스 만족도가 높다면 꾸준한 사용으루ㅗ 높은 재사용률을 나타냄
    • 낮은 retention의 경우, 높이기 위한 푸시, 메일링, 리뉴얼 등의 노력이 필요함
  • 친구들한테 소개(Referral)
    • 사용자가 자발적 바이럴, 공유를 일으키고 있는가? >> SNS 언급/ 공유/ 추천수, 추천 가입률 등
    • 서비스 안정화 이후 성장 단계에서 중요한 지표
    • 앱 설치에 영향을 주는 요인
    • 이미 사용자 디바이스에 설치된 앱은 포화상태이기에, 지인의 추천이 아닌 이상 새로운 앱을 설치할 이유와 목적이 없음
    • 해당 서비스가 얼마나 공유되고 그로 인해 얼만큼의 사용자가 재확보되는지
    • referral 단계는 > acquisition과 맞물려 선순환 만들어짐

 

3) 가장 중요한 구간?

서비스와 해당 서비스가 처한 환경에 따라 다름

Revenue가 기준이 되는 경우,

  • 예산이 여유롭고 자본금이 탄탄한 경우, 다양한 시도를 통해 지표를 올리는데 투자할 수 있음
  • 반대로 여유롭지 않은 경우, 수익을 극대화 하기 위한 액션이 최우선이며, 최소의 금액으로 신중히 소수의 시도만 할 수 있음
  • 서비스 초기인 경우, 수익을 중요한 지표로 선정하기 어려움. 따라서 접속자수와 회원가입 수 등을 늘리는 작업을 선행해야함

 

4) 퍼널 최종 단계 도착 유저수 늘리기

  • 페이지 뷰 늘리기 : 유료 고아고를 통해 유입 유도
  • 각 단계 사이의 전환율 올리기 : 외부 유입광고의 랜딩페이지 UX 개선
  • 퍼널의 단계를 줄임 : 가입철차의 최소화

 

1-2. Retention

그로스 해킹의 대표적인 분석 프레임워크로 AARRR 많이 사용함

사용자 유지와 관련된 지표

 

1) 중요한 이유

AARRR의 5단계 중 가장 먼저 개선해야하는 단계로 알려져 있음

사용자가 유지 되지 않는 서비스인데 광고를 늘려 Acquisition, Activation을 늘릴 경우,

새로 유입된 사용자들은 몇 번 서비스를 써보고 매력을 느끼지 못함 >> 이탈

 

>> 신규 사용자 유입보다 선결되어야 하는 것은

      >> 기존 사용자들이 서비스를 만족스럽게 사용하고 있는지 (핵심가치를 경험하는지)

      >> 지속적으로 사용하는지 보는 것

             >> Retention

 

2) 종류와 적합한 경우

N-Day 리텐션 : 특정 일자에 재방문한 유저의 비율 >> 모바일 게임/매일 재방문, 운동앱 / 주기적 재방문

Unbounded 리텐션 : 특정 일자를 포함하여 그 이후에 재방문한 유저의 비율 >> 배달앱 / 산발적 사용

Bracket 리텐션 : N-Day 리텐션을 보다 유연하게 확장시킨 것, 지정된 기간의 리텐션 파악

 

3) 지속적 사용 측정법

목표1

사용자가 서비스를 지속적으로 사용하는지를 보려고 함

  • 일반적으로 '방문/접속'을 기준으로 측정
  • 목표하에  다양한 로그가 리텐션을 정의하는데 사용될 수 있음
    • 특정 페이지 방문
    • 특정 페이지 N번 방문
    • 결제 버튼 클릭 또는 결제 완료
    • 특정 기능 사용
    • 등..

예, 일정관리앱 > 지속성 측정 기준 > '방문'이 아닌 '일정 등록' 로그

 

목표2

서비스 전체 레벨의 지표가 아니더라도, 

특정 기능을 개발했을 때 해당 기능(핵심 기능)을 유저들이잘 쓰고 있는지 살펴보기 위해

'기능의 반복 사용'을 보는 기능 리텐션(Feature Retention)을 측정하기도 함

 

 

4) N-Day 리텐션

Classic Retention

  • '방문'을 기준으로 리텐션 계산
  • 대표적인 클래식 리텐션 : N-Day Retention

N-Day Retention 의미

  • 첫 방문 후 특정 일자에 재방문한 유저 비율을 나타냅니다.

N-Day 리텐션 계산하기

  • 12/1 5명이 처음 서비스를 이용하기 시작함
  • 12/1일 가입자 5명의 접속 정보 요약 (일자, 명수, 리텐션(비율))
    • 12/1일 방문, 5명, 100%
    • 12/2일 방문, 2명, 40%
    • 12/3일 방문, 2명, 40%
    • 12/4일 방문, 3명, 60%

 

 

 

5) 클래식 리텐션의 한계

사용주기가 긴 경우 '방문'이라는 클래식 리텐션으로 사용자 유지 여부를 판단시 >> 과도 계산 우려

즉, 클래식 리텐션은 사용자가 매일 접속해서 사용할 것으로 기대되는 서비스(메신저, SNS)dp wjrgkq

 

 

6) 롤링 리텐션(Rolling Retention)의 비율

사용 주기가 긴 서비스

이탈에 초첨을 맞추기 떄문에 언바운드 리텐션(unbounded retention)이라고 부르기도 함

언바운디드 리텐션은 이탈률의 반대 개념

 

특정 날짜를 포함하여 그 이후에 (한번이라도) 재방문한 유저의 비율

유저가 정기적으로 반복해서 방문하는 제품과 서비스에 적합!!!

 

 

1-3. A/B test

AARRR에서 이탈률이(혹은 가장 중요한 KPI와 밀접한) 높은 구간을 찾은 뒤의 과정

이탈률이 높은 원인을 찾아 여러가시 가설(시안)을 고안하고 적용함

 

이 때, 여러 시안 테스트하며 최적의 방안을 찾아내는 과정 ==  'A/B 테스트'

 

 

 

 

2. 코호트 분석

1) 고객 세분화 (customer segmentation)

고객들의 공통의 특징을 기준으로 그룹화하는 작업

(린분석 - 유저를 다양한 기술적 정보와 인구통계학적 정보에 따라 세분화하여 다음 한 고객군을 다른 고객군과 비교함)

 

Q. 어떤 채널을 통해 가입한 고객이 가장 많은지

Q. 유입 채널 별로 고객 1인당 결제 금액(APRU, Average Revenue Per User)이 다른지

Q. 어떤 유입 채널을 통해 들어온 고객이 우리 서비스에 가장 많은 지출을 하고 있는지

Q. 그 유입 채널의 광고를 늘려볼지, 아니면 그 유입 채널에서 하고 있는 광고 형식을 다른 채널에도 족용해볼지?

 

>> 발생한 성공의 원인을 찾아내 그 성공 방정식을 확대 적용하는 것이 중요함

 

2) 코호트 분석(Cohort Analysis)의 의미

고객 세분화를 '시간의 흐름'을 기준으로 하는 것

광의 : 고객 세부노하와 코호트분석을 구분하지 않음

 

예시, 온라인 쇼핑몰 분석

  • 월별 신규가입 : 1천명
  • 월별 신규가입 고객 첫 달 평균 구매액
    • 1월 가입자의 첫 달 평균 구매액 : $5
    • 2월 가입자의 첫 달 평균 구매액 : $9 (2배 가까이 증가)
    • 4월 가입자의 첫 달 평균 구매액 : $6
    • 5월 가입자의 첫 달 평균 구매액 : $5

>> 매출은 증대중일지 몰라도 신규 가입자의 첫 달 평균 구매액이 감소하고 있음

 

 

 

3) 코호트 분석 응용 - 리텐션 차트

시간(특정 기간)을 기준으로 사용자를 그룹화하여

첫 방문 시기별로 사용자를 나누어 : 1월, 2월 3월 등

> 시간이 지남에 다라 각 그룹의 사용자들의 재방문 여부를 알 수 있다.

 

 

 

 

3. A/B test

1) 의미

방문자를 임의로 두 집단으로 나누고, 각 집단별로 다른 시안/화면을 제공한다.

두 집단 중 어떤 집단이 더 높은 성과를 보이는지 측정하여, 어떤 시안이 더 좋은지를 정량적으로 평가함

'성과' : 보통은 회원가입율, 재방문율, 구매전환율 등

 

 

2) 왜 사용?

상관관계로부터 인과관계(인과관계이 ㄹ가능성이 높은 것)을 찾아내기 위함이다.

 = 결과에 변화가 생겼을 때, 이 변화의 우너인이 우리가 했던 그 개입떄문이 맞는지 아닌지를 판단할 수 있음

 = 원인에 해당하는 요소를 개입시켜 결과에 해당되는 요소가 의도했던 방향으로 변화시킬 수 있음

 

예시 목표, 물놀이 사고를 줄이자

아이스크림 판매량 ~ 물놀이 사고의 빈도 : 높은 양의 상관관계

하지만 이는 상관관계지 인과관계가 아니다.

 

모든 상관관계까 인과관계인 것은 아니다.

 

 

 

3) 주의

A/B 테스트를 통해 '인과관계'를 찾기 위해선, 두 집단을 임의적(random assignment)으로 나누어야함

따라서 테스트 결과가 '범용성'을 지니려면 애초에 실험에 참가한 집단이 모집단을 대표할 수 있어야한다.

 

표본의 대표성?

기초통계학 얘긴데 이게 통계학에서 파생된 업무?는 아니니까 다른 워딩으로 정리돼서... 모르는 기법으로 새로 공부하게 만드는 그런 느낌...

 

4) 단점

  • 테스트 자주/많이 단기적으로 하면 손해 발생 가능 : 2안(B안)이 worse인 경우
  • 결과는 계절변화나 취향변화 등의 시간의 흐름에 따라 바뀜
    • 통제실험은 시공간의 보편성에 대한 가정이 디폴트
    • 그렇다고 반복하면 비용문제를 고려해야함
  • A/B테스트만 진행할 경우, 지역최저점에 머물 위험성
    • 기존 상태에서 작은 변화(되도록 하나의 변수만 조금 바꿈)를 가해 점진적으로 개선해삼
    • 하지만 이 방식은 지역최저점에 수렴할 수 있을 뿐, 전역적 최적점을 찾을 수 없다.

 

 

4) Verification, Validation

Verification

  • 우리가 제품을 맞게 만들엇는가?
  • ex) 패치로 인해서 스테이지 3의 체류시간이 4시간에 맞쳐줬는가? <- 의도한걸 잘 구현되는지?

Validation

 

  • 의도자체가 올바른가?
  • 우리가 맞는/알맞은 제품을 만들었는가?
  • ex) 스테이지 3의 체류시간이 4시간이어야 게임이 가장 재밌어지는가?

 

 

 

3-1. 신뢰구간을 이용한 A/B 테스트 결과 비교

1) 점 추정(poing estimation)

한계, 평균 구매액의 점추정만으로 실험결과 비교

 

무엇을? 왜 추정?

추정? 불확실한 무엇을 알기 위한 과정

 

불확실한 무엇 = 모집단의 평균 구매액 = 모평균

1주일 동안 20만명 실험 참여 = 표본

20만명의 평균 구매액 = 표본평균

 

>> 모평균을 알기 위해 표본평균을 추정하는 것(표본 평균의 평균을 구함?), 점 추정

>> 평균 표본은 모평균의 점 추정값이다.   <- 몰겠다...

 

 

2) 구간 추정

표준오차

실험 시 외부요인에 의해 표본 평균은 달라질 수 있다.

 

실험마다 표본평균의 변동이 얼마나 일어나는지를 평가해야함

표본 평균의 변동성 = 표본 분산 & 표본 집단의 크기로 알 수 있음

>> 표준 오차(standard error) = SE = 표본 표준편차 / 루트(포본 크기)

 

 

3) 신뢰 구간

표본 평균의 확률 분포 ~ 표본 크기가 충분히 크면 ~ 정규분포를 따름

>> 중심극한정리에 의해 증명됨

 

- 1.96은 표준 정규 분포에서 97.5 백분위 수 >> 95% 신뢰구간

 

 

여러개의 다른 표본에서 신뢰구간을 구할 경우,

95%의 구간들이 모평균을 포함한다는 의미??

 

점추정과 비교,

점 하나로는 알 수 없는 표본 평균의 변동성을 알 수 있음 >> 다른 표본과 비교가 용이함??

 

 

 

4) 2개의 표본에 대한 신뢰 구간 비교

B의 표준 오차와 95% 신뢰구간]>>> min & max 값 알 수 있다.

 

2개의 표본 평균의 신뢰구간이 겹치지 않은 경우,

신뢰구간이 겹치지 않은 경우, 두 표본 평균은 유의하게 다르다.

단, 역은 성립하지 않는다.
신뢰구간이 겹치지 않으면, 두 표본 평균은 유의하게 다르지만
신뢰구간이 겹치는 경우, 그 정도에 따라서 표본 평균이 유의하게 다르거나/다르지 않을 수 있음

  • Q. 그럼 왜 신뢰구간으로 표본 평균을 비교해?
  • A. 신뢰구간 계산은 직관적임. 2개의 표본 평균이 일정한 범위를 가지고, 겹치지 않으면 = 유의하게 다름
    신뢰구간만 계산하고 눈으로 기본적인 결과가 비교 가능함. 신뢰구간이 겹칠 경우 > 가설검정 제대로 할 필요 있음

 

겹치는 신뢰 구간(overlapping CI)
왜 신뢰구간이 겹칠때에도 통계적으로 유의미한 차이가 있을 수 있을까?
95% 신뢰구간 2개를 비교하면 > 유의수준 5%의 가설 검정이 성립하지 않음??????????

일반적 가설 검정에선 차이의 표준 오차을 사용함, 

신뢰구간 계산할 때는 각각의 표준 오차를 따로 사용한다.

 

 

3-2. A/B 테스트와 P-value

추가예정

 

 

 

 

 

 

 

 

4. RFM

1) 약자

recency : 얼마나 최근에 구매했는가

frequency : 얼마나 자주 구매했는가?

monetary : 얼마나 많은 금액을 지출했는가?

 

2) 의미

CRM 기법 중 하나

사용자들의 행동 패턴을 통해 타겟팅을 하는 방식 중 가장 범용적으로 사용할 수 있고,

구매 사용자 부뉼에 효과적인 기법이다.

 

RFM에 따라 사용자들이 분포를 확인하거나 그룹을 나누어 분석함

 

 

3) RFM segmentation

사전에 정의한 R, F, M 기준에 적합한 데이터는 1, 아닌 데이터는 0 >> like OneHot Encoding?

 

+ a

사용자들의 특성을 분석하여 서비스에 충성도가 높은 사용자가 특별히 많이 방문한 페이지, 많이 사용한 기능을 찾아내어 그 페이지 또는 기능을 일반 사용자들이 많이 사용하도록 유도하는 등의 작업

 

 

4) 고려할 점

  • Recency, Frequency, Monetary를 각각 몇 단계로 나눌 것인가
  • Frequency, Monetary를 집계하는 기간을 어떻게 설정할 것인가

 

  • 생필품을 판매하는 플랫폼, 한 달 이내 구매가 없을 때 이미 Recency 가 떨어지는 고객으로 분류
  • 명품 플랫폼 등 고급화 전략 플랫폼, Recency 만점 기준을 한 달은 매우 타이트할 수 있음

 

 

 

 

 

 

참고 자료

https://brunch.co.kr/@joeflow/8

 

10화 퍼널 분석(Funnel Analysis), 개념 잡기

AARRR - 이용자를 바라보는 관점 | 오늘의 주제는 "데이터를 공부하는 방법"이 아닌 실제 데이터 분석을 한다면 "어떤 관점으로 바라보아야 할까?"에 대한 주제에 더 가깝습니다. 서비스를 이용하

brunch.co.kr

https://mixpanel.com/ko/blog/funnel-analysis/

 

퍼널 분석: 퍼널 분석이란 무엇이며 그 이점은 무엇일까? - Mixpanel

웹 사이트를 성장시킬 Mixpanel의 퍼널 분석과 함께하십시오.

mixpanel.com

https://datarian.io/blog/funnel-analysis

 

퍼널분석 Funnel Analysis

“다음달 SQL 캠프 입문반 참가자를 10배로 늘리고 싶은데, 어떻게 하면 될까요?”

datarian.io

https://brownbears.tistory.com/614

 

퍼널 분석(Funnel Analysis)이란?

퍼널 분석(Funnel Analysis)이란? 퍼널 분석이란 퍼널은 깔때기라는 의미를 가지고 있습니다. 사용자들이 다양한 경로로 사이트에 들어오고 나가는 시점까지 특정 구간에 대한 데이터를 분석하여 나

brownbears.tistory.com

https://datarian.io/blog/classic-retention

 

리텐션 (1) Classic Retention

AARRR 프레임워크에서 가장 중요한 Retention, 사용자 유지와 관련한 지표 계산에 대해서 알아봅시다.

datarian.io

https://datarian.io/blog/dont-be-overwhelmed-by-pvalue

 

A/B 테스트에서 p-value에 휘둘리지 않기

실험의 목적은 얼마나 효과가 있는지 살펴보는 것이지 통계적 유의성만을 확보하는 것이 아니다.

datarian.io

https://blog.ab180.co/posts/retention-series-3-1

 

리텐션을 측정하는 세 가지 방법

리텐션을 개선하기 위해서는 우선 현재 리텐션 메트릭을 정확하게 분석해야 합니다. Amplitude에서는 리텐션을 측정할 수 있는 세 가지 방법을 지원합니다. 각 제품 별 핵심 이벤트와 제품 사용 주

blog.ab180.co

https://datarian.io/blog?tag=data-analysis 

 

데이터 분석가들이 쓰는, 데이터리안 블로그

데이터 분석가들의 실현 가능한 인사이트

datarian.io