Meiren

[데이터 분석] A/B test와 p-value 는 매번 같이 나오던데 대체 무엇인지 정리해보자(통계 유의성) 본문

데이터 분석(data analyst)

[데이터 분석] A/B test와 p-value 는 매번 같이 나오던데 대체 무엇인지 정리해보자(통계 유의성)

meiren 2023. 1. 16. 07:46

학습 기록용 컨텐츠 복붗 및 요약한 내용임.

아래 참고 자료(링크)가 원본임

목차
1. p-value와 a/b test
     1-1. 결과 해석 시 유의점
     1-2. 가설검정
     1-3. 두 가지 오류
     1-4. p-value
     1-5. 유의하지 않은 결과, 그 후
2. 문제 제기(결과 및 실험 과정에 대한)
     2-1. 효과 크기를 무시한 유의성 검정
     2-2. 적절한 표본 크기 정하기
     2-3. 실험이 안 끝났는데 결과 살펴보기
     2-4. 현실적인 문제
3. 결론

 

Summary

p-value는 통계적 유의성 확보를 위한 도구이지, 실험 결과의 중요성을 평가하는 지표가 아니다.

실험 결과가 현실적으로 어떤 중요성을 갖는지 판단해야한다.

결과를 얼마나 믿을 수 있는지는 다음 문제다.

 

1. p-value와 a/b test

1-1. p-value 해석을 위주로 A/B 테스트 결과 분석을 할 경우 발생되는 문제점

A/B test 결과 분석은 주로 빈도주의 관점에서 유의성 검정을 따른다.

문제는 유독 유의확률(p-value)에만 집중하느라 실험 결과 해석이 충분하게 이뤄지지 않는 점

실험의 목적은 얼마나 효과가 있는지를 판단하는 것이지, 통계적 유의성 확보만은 아니니

 

 

1-2. 가설검정

귀무가설과 대립가설

 

1-3. 두 가지 오류 (모델평가 confusion matrix와 유사)

1종 오류 : 귀무가설이 사실이지만 기각한 경우, FN

2종 오류 : 귀무가설이 거짓이지만 채택한 경우, FP

 

 

1-4. 오류 수준 정하기

없는데 있다고 할 오류 vs 있는데 없다고 할 오류

만일 암, 있는데 없다고 할 오류가 더 위험 >> 1종 오류에 대한 기준을 5%로 잡음

즉, p-value < 0.05

 

 

1-5. p-value 구하기

a/b test할 두 집간단에 차이가 없는데 있다고 할 오류(1종 오류)의 수준의 maximum 을 5%로 실험전에 정의함

통계적으로 유의한 차이로 인정하기 위한 조건임

 

 

1-6. 유의하지 않은 결과, 그 후

실험을 멈추고, 두 실험군 사이에 통계적 유의한 차이 없음으로 결론 내리기

실험을 지속시킴, 기간을 연장하여 >> 표본의 크기 증가시킴

 

 

2. 문제 제기

+ 그렇다면 과연 임의로 기간을 연장해도 되는가?

+ 적절한 표본의 크기란??

 

2-1. 효과 크기를 무시한 유의성 검정

Q. 두 실험군의 차이는 미미한데 통계적으로 유의한 차이를 얻으면 더 좋은 것인가?

A. 효과 크기가 작다면, 아무리 통계적으로 유의한 차이가 있더라도 현실에선 큰의미가 없다.

     동일한 퍼센트의 차이(전환율 등)라 하더라도 하루 평균 구매 고객이 1000명인 서비스와 100만명인 서비스에서의 효과는 매우 상이함.

     따라서 해당 효과가 현실에서 어느 정도의 가치를 의미하는지 아는 것이 중요함

 

 

2-2. 적절한 표본 크기 정하기

Q. 실험 시작 전 적절한 실험의 규모를 정할 수 있나?

A. 몇 가지를 미리 정하면 적절한 실험 규모를 알 수 있다.

     1,2종 오류 수준과 탐지하고자는 원하는 최소한의 효과 크기를 정하면 적절 표본 크기 계산이 가능하다. 

     일반적으로 1종 오류 = 유의수준이라고 하며, 오류의 한계 = 0.05%

     2종 오류= beta

     검정력 = 1-B(betq) = 있는데 없다고 판단할 오류의 여사건 = 0.8     

     

검정력이 0.8이다?

탐지하려는 효과가 실제로 있을 때 효과가 있다고 판단할 가능성이 0.8이라는 의미

다만 p-value가 효과가 없다는 가정하에 평가한 숫자임

따라서 p-value와 별도로 검정력에 신경쓸 필요가 있음

 

실무에선,

과연 얼마나 차이가 나야 이익인지 따져봐야한다. 이전에 비슷한 실험을 한 사례가 있다면 적극 이용 추천

 

 

 

2-3. 실험이 안 끝났는데 결과 살펴보기

Q. 실험 종료 전 결과를 확인하고 이를 확신하는 경우, 결과 엿보기(peeking) 문제

A. 너무 일찍 실험을 중단하고 그 결과를 신뢰하는 경우 문제가 큼.

    우연히 p-value가 0.05보다 작아지는 순간 > 실험이 끝났다고 정의하고 결론을 내리면 > 통계적 유의성에 영향끼침

    실험 초기 수집되 데이터 샘플이 작아서 p-value가 작은 경우도 있다

>> 적절한 실험 규모를 계산했다면, 실험이 끝날 때까지 기다리자.

 

 

 

2-4. 실무, 현실적인 문제

이론적으로는

- 검정력과

- 유의수준을 미리 정하고, 

- 탐지하고자는 원하는 효과 크기도 미리 알아서

- 실험 규모를 정해야한다.

 

예시)표본 크기를 정해둔 경우,

정해둔 표본 크기를 달성하더라도 이 정보만 가지고 실험 지속 여부를 결정할 수 없다.

그 이유는 주말과 주중의 고객 행동이 크게 다르면, 아무리 많은 표본 크기르 ㄹ얻었더라도 최소한 1주일 주기의 실험을 계획하는 것이 바람직하다는 것을 통해 알 수 있다.

 

 

 

 

3. 결론

a/b test 시 고려해야 할 것들

- 유의 수준(1종 오류)

- 검정력(2종 오류)

- 적정 실험 규모(표본 수) >> 과대 표본으로 인한 자원 낭비 예방

- 결과 엿보기로 인한 underpowered 실험 방지

- 실험 결과가 현실적으로 어떤 중요성을 갖는지 판단

 

 

p-value는 통계적 유의성 확보를 위한 도구이지, 실험 결과의 중요성을 평가하는 지표가 아니다.

실험 결과가 현실적으로 어떤 중요성을 갖는지 판단해야한다.

결과를 얼마나 믿을 수 있는지는 다음 문제다.

 

 

 


참고자료 및 출처

https://velog.io/@iguv/1%EC%A2%85-%EC%98%A4%EB%A5%98-2%EC%A2%85-%EC%98%A4%EB%A5%98-Confusion-Matrix

 

1종 오류, 2종 오류, Confusion Matrix

이제 통계에 대한 기초적인 이야기는 거의 다 끝나가는 것 같다. 아마 이거 쓰고 Variance Bias, 그리고 Odds ratio 까지 쓰면 면접에서 나올만한 통계와 머신러닝 기초 이론은 다 커버되지 않을까 싶다

velog.io

https://datarian.io/blog/dont-be-overwhelmed-by-pvalue

 

A/B 테스트에서 p-value에 휘둘리지 않기

실험의 목적은 얼마나 효과가 있는지 살펴보는 것이지 통계적 유의성만을 확보하는 것이 아니다.

datarian.io

https://boxnwhis.kr/2016/04/15/dont_be_overwhelmed_by_pvalue.html

 

A/B 테스트에서 p-value에 휘둘리지 않기

A/B 테스트에서 p-value에만 과하게 집중하는 것이 왜 좋지 않은지 설명합니다.

boxnwhis.kr