Using noise to detect test flakiness

SILVA, Denini Gabriel

Use este identificador para citar ou linkar para este item: https://repositorio.ufpe.br/handle/123456789/44567

Compartilhe esta página

Registro completo de metadados

Campo DC	Valor	Idioma
dc.contributor.advisor	D'AMORIM, Marcelo Bezerra	-
dc.contributor.author	SILVA, Denini Gabriel	-
dc.date.accessioned	2022-05-25T16:56:01Z	-
dc.date.available	2022-05-25T16:56:01Z	-
dc.date.issued	2022-02-25	-
dc.identifier.citation	SILVA, Denini Gabriel. Using noise to detect test flakiness. 2022. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Pernambuco, Recife, 2022.	pt_BR
dc.identifier.uri	https://repositorio.ufpe.br/handle/123456789/44567	-
dc.description.abstract	A test is said to be flaky when it non-deterministically passes or fails in different runs on the same configuration (e.g., code). Test flakiness negatively affects regression testing as failure observations are not necessarily an indication of bugs in the program. Static and dynamic techniques for detecting flaky tests have been proposed in the literature but they are limited. Prior studies have shown that test flakiness is mostly caused by concurrent behavior. Based on that observation, we hypothesize that adding noise in the environment (stress tests consuming machine resources such as CPU and memory) can interfere in the ordering of program events and, consequently, it can influence the test outputs. We propose Shaker, a practical technique to detect flaky tests by comparing the outputs of multiple test runs in noisy environments. Compared with a regular test run, one test run with Shaker is slower as the environment is loaded, i.e., the process that runs a given test competes for resources with stressor tasks that Shaker creates. However, we conjecture that Shaker pays off by detecting flakiness in fewer runs compared with the alternative of running the test suite multiple times in a regular (non-noisy) environment. We evaluated Shaker using a public benchmark of flaky tests, obtaining encouraging results. For example, we found that (1) Shaker is 96% precise; it is almost as precise as ReRun, which by definition does not report false positives, that (2) Shaker’s recall is much higher compared to ReRun’s (95% versus 65%), and that (3) Shaker detects flaky tests much more efficiently than ReRun, despite the execution overhead associated with noise introduction. To sum up, results indicate that noise is a promising approach to detect flakiness.	pt_BR
dc.description.sponsorship	FACEPE	pt_BR
dc.language.iso	eng	pt_BR
dc.publisher	Universidade Federal de Pernambuco	pt_BR
dc.rights	openAccess	pt_BR
dc.rights	Attribution-NonCommercial-NoDerivs 3.0 Brazil	*
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/br/	*
dc.subject	Engenharia de software e linguagens de programação	pt_BR
dc.subject	Android	pt_BR
dc.subject	Teste de software	pt_BR
dc.subject	Depuração	pt_BR
dc.subject	Evolução de software	pt_BR
dc.title	Using noise to detect test flakiness	pt_BR
dc.type	masterThesis	pt_BR
dc.contributor.advisor-co	MIRANDA, Breno Alexandro Ferreira de	-
dc.contributor.authorLattes	http://lattes.cnpq.br/2453726460754742	pt_BR
dc.publisher.initials	UFPE	pt_BR
dc.publisher.country	Brasil	pt_BR
dc.degree.level	mestrado	pt_BR
dc.contributor.advisorLattes	http://lattes.cnpq.br/3762670242328435	pt_BR
dc.publisher.program	Programa de Pos Graduacao em Ciencia da Computacao	pt_BR
dc.description.abstractx	Um teste é dito como “flaky” quando passa ou falha de forma não determinística em diferentes execuções na mesma configuração (por exemplo, código). o teste flaky afeta neg- ativamente o teste de regressão, pois as observações de falha não são necessariamente uma indicação de bugs no programa. Técnicas estáticas e dinâmicas para detecção de testes flaky têm sido propostas na literatura, mas são limitadas. Estudos anteriores mostraram que testes flaky são causados principalmente por comportamentos de concorrência. Com base nessa observação, levantamos a hipótese de que a adição de ruído no ambiente (testes de estresse consumindo recursos da máquina, como CPU e memória) pode interferir na ordenação dos eventos do programa e, consequentemente, pode influenciar as saídas do teste. Propomos Shaker, uma técnica prática para detectar testes flaky comparando as saídas de várias execuções de teste em ambientes ruidosos. Em comparação com uma execução de teste normal, uma execução de teste com Shaker é mais lenta à medida que o ambiente é carregado, ou seja, o processo que executa um determinado teste com- pete por recursos com taks de estressores que Shaker cria. No entanto, conjecturamos que Shaker compensa ao detectar falhas em menos execuções em comparação com a alternativa de executar o conjunto de testes várias vezes em um ambiente normal (sem ruído). Avaliamos Shaker usando um benchmark público de testes flaky, obtendo resul- tados encorajadores. Por exemplo, descobrimos que (1) Shaker é 96% preciso; équase tão preciso quanto ReRun, que por definição não reporta falsos positivos, (2) O recall de Shaker é muito maior comparado com ReRun (95% versus .65%), e que (3) Shaker detecta testes flaky com muito mais eficiência do que ReRun, apesar da sobrecarga de execução associada à introdução de ruído. Em suma, os resultados indicam que o ruído é uma abordagem promissora para detectar testes flaky.	pt_BR
dc.contributor.advisor-coLattes	http://lattes.cnpq.br/0311224988123909	pt_BR
Aparece nas coleções:	Dissertações de Mestrado - Ciência da Computação

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
DISSERTAÇÃO Denini Gabriel Silva.pdf		1,09 MB	Adobe PDF	Visualizar/Abrir

Este arquivo é protegido por direitos autorais

Ver licença

Mostrar registro simples do item Recomendar este item Visualizar estatísticas

Este item está licenciada sob uma Licença Creative Commons