Test-based domain model generation via large language models: a comparative analysis of advanced prompt engineering techniques

SILVA, Pedro Henrique de Oliveira

Please use this identifier to cite or link to this item: https://repositorio.ufpe.br/handle/123456789/67689

Share on

Full metadata record

DC Field	Value	Language
dc.contributor.advisor	SAMPAIO, Augusto Cezar Alves	-
dc.contributor.author	SILVA, Pedro Henrique de Oliveira	-
dc.date.accessioned	2026-01-16T15:56:44Z	-
dc.date.available	2026-01-16T15:56:44Z	-
dc.date.issued	2025-08-18	-
dc.date.submitted	2025-08-22	-
dc.identifier.citation	SILVA, Pedro Henrique de Oliveira. Test-based domain model generation via large language models: a comparative analysis of advanced prompt engineering techniques. 2025. Trabalho de Conclusão de Curso Engenharia da Computação - Universidade Federal de Pernambuco, Recife, 2025.	pt_BR
dc.identifier.uri	https://repositorio.ufpe.br/handle/123456789/67689	-
dc.description.abstract	The automated generation of domain models from test cases represents a fundamental challenge in software engineering, particularly in the context of mobile device testing. This work extends the research by Silva (2025), who proposed a framework based on Large Language Models (LLMs) to automate this process. We present three main contributions: (1) SBERT, a BERT-based model for generating sentence embeddings to measure semantic similarity, will be replaced by an LLM for semantic validation, eliminating fixed threshold limitations and providing contextual analysis capabilities; (2) implementation and comparative evaluation of five advanced prompt engineering techniques - Few-Shot, Chain-of-Thought, Universal Self-Consistency, Tree of Thoughts, and Prompt Chaining; and (3) systematic analysis of the impact of the temperature parameter on the quality of the generated models. Using Gemini 2.5-flash (instead of Gemini 2 adopted in the previous work), but reusing the same dataset from the original work to ensure comparability, our experiments focus on evaluating the effectiveness of different prompting strategies. Among the techniques evaluated, Chain-of-Thought demonstrated the best overall performance with median recall of 0.87 and low variance (! =0.06), while being computationally efficient. Temperature analysis revealed an optimal result with value 0.3 for structured modelling tasks, balancing determinism and flexibility. These results not only validate the effectiveness of the proposed techniques but also provide practical guidelines for applying LLMs to software engineering tasks that require structural precision and semantic understanding. In particular, we demonstrate significant improvements over the baseline work, with increases of up to 23% in correct identification of implicit atoms and 15% in detection of complex associations.	pt_BR
dc.format.extent	49p.	pt_BR
dc.language.iso	eng	pt_BR
dc.rights	openAccess	pt_BR
dc.rights.uri	https://creativecommons.org/licenses/by-nc-nd/4.0/	pt_BR
dc.subject	Domain Models	pt_BR
dc.subject	LLM	pt_BR
dc.subject	Software Testing	pt_BR
dc.subject	Prompt Engineering	pt_BR
dc.subject	Semantic Validation	pt_BR
dc.title	Test-based domain model generation via large language models: a comparative analysis of advanced prompt engineering techniques	pt_BR
dc.type	bachelorThesis	pt_BR
dc.degree.level	Graduacao	pt_BR
dc.contributor.advisorLattes	http://lattes.cnpq.br/3977760354511853	pt_BR
dc.description.abstractx	A geração automatizada de modelos de domínio a partir de casos de teste representa um desafio fundamental na engenharia de software, particularmente no contexto de testes de dispositivos móveis. Este trabalho estende a pesquisa de Silva (2025), que propôs uma estrutura baseada em Large Language Models (LLMs) para automatizar esse processo. Apresentamos três contribuições principais: (1) SBERT, um modelo baseado em BERT para gerar ’sentence embed- dings’ para medir similaridade semântica, será substituído por um LLM para validação semântica, eliminando limitações de limiares fixos e fornecendo capacidades de análise contextual; (2) implementação e avaliação comparativa de cinco técnicas avançadas de ’prompt engineering’ - Few-Shot, Chain-of-Thought, Universal Self-Consistency, Tree of Thoughts e Prompt Chaining; e (3) análise sistemática do impacto do parâmetro ’temperature’ na qualidade dos modelos gerados. Usando Gemini 2.5-flash (em vez de Gemini 2 adotado no trabalho anterior), mas reuti- lizando o mesmo conjunto de dados do trabalho original para garantir a comparabilidade, nossos experimentos se concentram em avaliar a eficácia das diferentes estratégias de ’prompting’. Entre as técnicas avaliadas, Chain-of-Thought demonstrou o melhor desempenho geral com recall mediano de 0.87 e baixa variância (! =0.06), enquanto era computacionalmente eficiente. A análise de ’temperature’ revelou um resultado ótimo com o valor 0.3 para tarefas de modelagem estruturada, equilibrando determinismo e flexibilidade. Esses resultados não apenas validam a eficácia das técnicas propostas, mas também fornecem diretrizes práticas para a aplicação de LLMs em tarefas de engenharia de software que exigem precisão estrutural e compreensão semântica. Em particular, demonstramos melhorias significativas em relação ao trabalho de base, com aumentos de até 23% na identificação correta de átomos implícitos e 15% na detecção de associações complexas.	pt_BR
dc.subject.cnpq	Áreas::Ciências Exatas e da Terra::Ciência da Computação	pt_BR
dc.degree.departament	::(CIN-DCC) - Departamento de Ciência da Computação	pt_BR
dc.degree.graduation	::CIn-Curso de Engenharia da Computação	pt_BR
dc.degree.grantor	Universidade Federal de Pernambuco	pt_BR
dc.degree.local	Recife	pt_BR
Appears in Collections:	(TCC) - Engenharia da Computação

Files in This Item:

File	Description	Size	Format
TCC Pedro Henrique de Oliveira Silva.pdf		2.25 MB	Adobe PDF	View/Open

This item is protected by original copyright

View License

Show simple item record Recommend this item

This item is licensed under a Creative Commons License