Uso de dados de proveniência em pipelines de aprendizado de máquina: um caso de uso com seleção de atributos

BRASILEIRO, Natacha Targino Rodrigues Simões

Please use this identifier to cite or link to this item: https://repositorio.ufpe.br/handle/123456789/67233

Share on

Title:	Uso de dados de proveniência em pipelines de aprendizado de máquina: um caso de uso com seleção de atributos
Authors:	BRASILEIRO, Natacha Targino Rodrigues Simões
Keywords:	Aprendizado de máquina; Dados de proveniência; Seleção de atributos; Ontologias
Issue Date:	27-Feb-2025
Publisher:	Universidade Federal de Pernambuco
Citation:	BRASILEIRO, Natacha Targino Rodrigues Simões. Uso de dados de proveniência em pipelines de aprendizado de máquina: um caso de uso com seleção de atributos. 2025. Tese (Doutorado em Ciência da Computação) - Universidade Federal de Pernambuco, Recife, 2025.
Abstract:	Com o aumento exponencial dos dados e o desenvolvimento de sistemas inteligentes baseados em Aprendizado de Máquina (AM), surgem novas oportunidades e desafios. A eficácia desses sistemas depende da compreensão dos princípios do AM, principalmente na utilização de algoritmos supervisionados, que aprendem a partir de dados rotulados para realizar tarefas de previsão. Nesse contexto, dados de proveniência oferecem uma oportunidade de rastrear e entender decisões feitas durante as execuções anteriores de pipelines de AM, promovendo a transparência e rastreabilidade desses processos. Embora a literatura explore o uso de dados de proveniência em AM, sua aplicação em atividades de seleção de atributos ainda é pouco explorada, apesar do potencial para automatizar ajustes e melhorar a avaliação dos modelos. O presente trabalho propõe uma abordagem focada em dados de proveniência de execuções de pipelines de AM, com o objetivo de explorar o papel desses dados na reexecução e ajuste de atividades de seleção de atributos em pipelines de AM. Especificamente, investigam-se duas questões de pesquisa: (1) como dados de proveniência capturados durante a execução de um pipeline de AM podem ser utilizados para registrar e viabilizar a reexecução consistente de atividades específicas em momentos futuros, e (2) como as informações obtidas a partir dos dados de proveniência de execuções anteriores de pipelines de AM podem auxiliar na realização de ajustes na seleção de atributos, de forma a contribuir para a melhoria da avaliação dos modelos de AM. A solução apresentada envolve a captura de dados de proveniência durante a execução de pipelines e a estruturação semântica desses dados usando uma extensão da Ontologia PROV (W3C). A estruturação visa otimizar a reutilização das informações para ajustar e melhorar a avaliação dos modelos de AM. A abordagem permite ajustar a seleção de atributos com base em execuções anteriores, promovendo o aprimoramento contínuo do modelo. Para avaliar a proposta, foi desenvolvido um protótipo que automatiza esse processo. Em experimentos com diferentes tarefas de treinamento de modelos de AM, foi observado que os ajustes baseados em dados de proveniência resultaram em melhorias nas métricas de acurácia e F1-score dos modelos de AM gerados. Os resultados indicam que o uso de dados de proveniência contribui para otimizar o processo de treinamento, especialmente ao considerar a reexecução e o ajuste das atividades. As principais contribuições deste trabalho incluem a definição da ontologia PROVX, a qual permite modelar e gerenciar os dados de proveniência dos pipelines de AM, e a proposta de uma estratégia de seleção de atributos que facilita o aprimoramento dos modelos com base nesses dados.
URI:	https://repositorio.ufpe.br/handle/123456789/67233
Appears in Collections:	Teses de Doutorado - Ciência da Computação

Files in This Item:

File	Description	Size	Format
TESE Natacha Targino Rodrigues Simoes Brasileiro.pdf		4.21 MB	Adobe PDF	View/Open

This item is protected by original copyright

View License

Show full item record Recommend this item

This item is licensed under a Creative Commons License