Por favor, use este identificador para citar o enlazar este ítem:
https://repositorio.ufpe.br/handle/123456789/67233
Comparte esta pagina
| Título : | Uso de dados de proveniência em pipelines de aprendizado de máquina: um caso de uso com seleção de atributos |
| Autor : | BRASILEIRO, Natacha Targino Rodrigues Simões |
| Palabras clave : | Aprendizado de máquina; Dados de proveniência; Seleção de atributos; Ontologias |
| Fecha de publicación : | 27-feb-2025 |
| Editorial : | Universidade Federal de Pernambuco |
| Citación : | BRASILEIRO, Natacha Targino Rodrigues Simões. Uso de dados de proveniência em pipelines de aprendizado de máquina: um caso de uso com seleção de atributos. 2025. Tese (Doutorado em Ciência da Computação) - Universidade Federal de Pernambuco, Recife, 2025. |
| Resumen : | Com o aumento exponencial dos dados e o desenvolvimento de sistemas inteligentes baseados em Aprendizado de Máquina (AM), surgem novas oportunidades e desafios. A eficácia desses sistemas depende da compreensão dos princípios do AM, principalmente na utilização de algoritmos supervisionados, que aprendem a partir de dados rotulados para realizar tarefas de previsão. Nesse contexto, dados de proveniência oferecem uma oportunidade de rastrear e entender decisões feitas durante as execuções anteriores de pipelines de AM, promovendo a transparência e rastreabilidade desses processos. Embora a literatura explore o uso de dados de proveniência em AM, sua aplicação em atividades de seleção de atributos ainda é pouco explorada, apesar do potencial para automatizar ajustes e melhorar a avaliação dos modelos. O presente trabalho propõe uma abordagem focada em dados de proveniência de execuções de pipelines de AM, com o objetivo de explorar o papel desses dados na reexecução e ajuste de atividades de seleção de atributos em pipelines de AM. Especificamente, investigam-se duas questões de pesquisa: (1) como dados de proveniência capturados durante a execução de um pipeline de AM podem ser utilizados para registrar e viabilizar a reexecução consistente de atividades específicas em momentos futuros, e (2) como as informações obtidas a partir dos dados de proveniência de execuções anteriores de pipelines de AM podem auxiliar na realização de ajustes na seleção de atributos, de forma a contribuir para a melhoria da avaliação dos modelos de AM. A solução apresentada envolve a captura de dados de proveniência durante a execução de pipelines e a estruturação semântica desses dados usando uma extensão da Ontologia PROV (W3C). A estruturação visa otimizar a reutilização das informações para ajustar e melhorar a avaliação dos modelos de AM. A abordagem permite ajustar a seleção de atributos com base em execuções anteriores, promovendo o aprimoramento contínuo do modelo. Para avaliar a proposta, foi desenvolvido um protótipo que automatiza esse processo. Em experimentos com diferentes tarefas de treinamento de modelos de AM, foi observado que os ajustes baseados em dados de proveniência resultaram em melhorias nas métricas de acurácia e F1-score dos modelos de AM gerados. Os resultados indicam que o uso de dados de proveniência contribui para otimizar o processo de treinamento, especialmente ao considerar a reexecução e o ajuste das atividades. As principais contribuições deste trabalho incluem a definição da ontologia PROVX, a qual permite modelar e gerenciar os dados de proveniência dos pipelines de AM, e a proposta de uma estratégia de seleção de atributos que facilita o aprimoramento dos modelos com base nesses dados. |
| URI : | https://repositorio.ufpe.br/handle/123456789/67233 |
| Aparece en las colecciones: | Teses de Doutorado - Ciência da Computação |
Ficheros en este ítem:
| Fichero | Descripción | Tamaño | Formato | |
|---|---|---|---|---|
| TESE Natacha Targino Rodrigues Simoes Brasileiro.pdf | 4.21 MB | Adobe PDF | ![]() View/Open |
Este ítem está protegido por copyright original |
Este ítem está sujeto a una licencia Creative Commons Licencia Creative Commons

