Peeking nos testes A/B: estado da arte e estudos de simulação

Romão, Joana Morais Sarmento Batista

http://hdl.handle.net/10400.26/63523

Utilize este identificador para referenciar este registo.

Nome:	Descrição:	Tamanho:	Formato:
Joana_Romão.pdf		2.93 MB	Adobe PDF	Ver/Abrir

Contacte-nos

Autores

Romão, Joana Morais Sarmento Batista

Orientador(es)

Viseu, Clara Margarida Pisco

Leite, Joana Jorge de Queiroz

Resumo(s)

Os testes A/B têm vindo cada vez mais a afirmar-se como uma ferramenta essencial, no meio empresarial, tendo em vista a melhoria contínua de produtos e serviços. Contudo, o ambiente digital onde estes têm sido implementados, tem evidenciado alguns desafios que lhes são inerentes como o problema do peeking associado ao early stopping. Esta problemática decorre da monitorização contínua dos resultados e visa interromper o teste antes deste ter terminado, o que pode levar a tomadas de decisão erradas com prejuízos significativos. A presente investigação tem, assim, como principais objetivos explorar os testes A/B, em particular, o problema do peeking que lhes está associado e desenvolver estudos de simulação para demonstrar este problema, impacto e eficácia de abordagens que permitem mitigá-lo. Para tal, conduziu-se uma revisão sistemática de literatura e realizaram-se estudos de simulação em Python, com dados gerados artificialmente, para mostrar a importância de analisar esta prática problemática, o seu impacto e métodos que o mitigam. Os resultados da revisão sistemática de literatura mostraram que esta prática de peeking é problemática quando existe a intenção de parar antecipadamente o teste, atendendo às consequências estatísticas evidentes, sobretudo quando utilizados métodos inadequados num contexto de monitorização contínua. Foi ainda possível identificar uma variedade de abordagens que permitem mitigar o seu impacto. Nos estudos de simulação, ao utilizar testes estatísticos tradicionais, que exigem que a amostra esteja completa para serem aplicados, a questão do peeking ficou evidente quando se faz early stopping, dado um aumento da taxa de erro de tipo I em cerca de 18%. Mesmo ao aplicar abordagens que minimizam o seu impacto, como as funções alpha spending, que ajustam o nível de significância, é necessário fazê-lo com consciência e cautela, visto que estas não o solucionam este problema. Esta investigação mostra a importância da sensibilização de profissionais para os riscos do peeking e da formação estatística para a implementação responsável dos testes A/B.

Palavras-chave

testes A/B peeking early stopping erro de tipo I funções alpha spending

URI

http://hdl.handle.net/10400.26/63523

Coleções

ISCAC - Dissertações de Mestrado

Licença CC

cclicense-by-nc-nd

Ver registo completo