Skip navigation
Por favor, use este identificador para citar o enlazar este ítem: https://repositorio.ufpe.br/handle/123456789/67046

Comparte esta pagina

Registro completo de metadatos
Campo DC Valor Lengua/Idioma
dc.contributor.advisorCAVALCANTI, George Darmiton da Cunha-
dc.contributor.authorMAIA, Cynthia Moreira-
dc.date.accessioned2025-12-03T16:11:33Z-
dc.date.available2025-12-03T16:11:33Z-
dc.date.issued2025-10-15-
dc.identifier.citationMAIA, Cynthia Moreira. On Multi-Label Meta-Learning for automated pipeline recommendation. 2025. Tese (Doutorado em Ciência da Computação) - Universidade Federal de Pernambuco, Recife, 2025.pt_BR
dc.identifier.urihttps://repositorio.ufpe.br/handle/123456789/67046-
dc.description.abstractAutomated Machine Learning (AutoML) aims to automate stages of the machine learn ing process, such as algorithm selection, data preprocessing, and hyperparameter tuning. One of its main challenges is designing a search space that can handle different problems while ensuring the best trade-off between performance and computational cost. Traditional AutoML approaches primarily explore the search space online, utilizing optimization strategies such as Bayesian Optimization to identify the optimal configuration within a specified time budget. Although effective, such methods often result in high computational costs. In contrast, our proposal seeks to avoid online search strategies by employing meta-learning to address these challenges. This approach leverages the meta-features of problems to recommend solutions appropriate to their nature, thereby eliminating the need for exhaustive search at runtime. Accordingly, we propose MetaML, the first study of this thesis, a meta-learning approach based on multi-label algorithms for pipeline recommendation in AutoML. To this end, we present a curated search space design that automatically reduces the number of candidate pipelines, based on historical data from online repositories, including only the most frequently used pipelines with the best performance across a significant number of datasets. Additionally, we propose chained recommendations utilizing multi-label algorithms that take into account the interdependencies between pipeline stages. Experiments conducted on different datasets demonstrate the effectiveness of the approach, with MetaML achieving satisfactory results and, in some cases, superior outcomes at a lower computational cost compared to current AutoML methods. However, the pipelines derived from the repository experiments showed limited representativeness with respect to preprocessing techniques. As an alternative, we pro pose the PIPES meta-dataset, the second study of this thesis, which consists of a collection of experiments involving multiple pipelines, designed to represent all selected combinations of techniques, including different preprocessing blocks and a classification block. After con structing PIPES, we employed this meta-dataset in the third study of the thesis, MetaML 2.0, to investigate whether broader pipeline representativeness could yield even better results. The experiments demonstrated that this approach indeed achieved improved performance in specific datasets.pt_BR
dc.language.isoengpt_BR
dc.publisherUniversidade Federal de Pernambucopt_BR
dc.rightsopenAccesspt_BR
dc.rights.urihttps://creativecommons.org/licenses/by-nc-nd/4.0/pt_BR
dc.subjectFluxospt_BR
dc.subjectMeta-aprendizagempt_BR
dc.subjectMultirrótulopt_BR
dc.titleOn Multi-Label Meta-Learning for automated pipeline recommendationpt_BR
dc.typedoctoralThesispt_BR
dc.contributor.advisor-coCRUZ, Rafael Menelau Oliveira e-
dc.contributor.authorLatteshttp://lattes.cnpq.br/7914454797013089pt_BR
dc.publisher.initialsUFPEpt_BR
dc.publisher.countryBrasilpt_BR
dc.degree.leveldoutoradopt_BR
dc.contributor.advisorLatteshttp://lattes.cnpq.br/8577312109146354pt_BR
dc.publisher.programPrograma de Pos Graduacao em Ciencia da Computacaopt_BR
dc.description.abstractxO Aprendizado de Máquina Automatizado (Automated Machine Learning- AutoML) visa automatizar etapas do processo de aprendizado de máquina, como seleção de algoritmos, pré-processamento e ajuste de hiperparâmetros. Um de seus principais desafios é projetar um espaço de busca que atenda a diferentes problemas, garantindo a melhor relação entre desempenho e custo computacional. As abordagens tradicionais de AutoML exploram principalmente o espaço de busca em tempo de execução (online), aplicando estratégias de otimização como a Otimização Bayesiana para encontrar a melhor configuração dentro de um prazo determinado. Embora eficazes, tais estratégias frequentemente resultam em altos custos computacionais. Em contraste, nossa proposta busca evitar estratégias de busca online empregando metaaprendizado para abordar tais desafios. Essa abordagem utiliza as meta-características dos problemas para recomendar soluções apropriadas à sua natureza, eliminando assim a necessidade de busca exaustiva em tempo de execução. Dessa forma, propomos o MetaML, primeiro estudo desta tese, uma abordagem de meta-aprendizado baseada em algoritmos multirrótulos para recomendação de pipelines em AutoML. Para tanto, apresentamos um projeto de espaço de busca com curadoria que reduz automaticamente o número de pipelines candidatos, com base em dados históricos de repositórios online, incluindo apenas os pipelines mais utilizados e com melhor desempenho em um número significativo de conjuntos de dados. Além disso, propomos recomendações encadeadas usando algoritmos multirrótulos que consideram as interdependências entre as etapas do pipeline. Experimentos em diferentes conjuntos de dados demonstram a eficácia da abordagem, com o MetaML alcançando resultados satisfatórios e, em alguns casos, resultados superiores a um custo computacional menor do que os métodos AutoML atuais. No entanto, os pipelines derivados dos experimentos do repositório online apresentaram pouca representatividade em relação ao uso de técnicas de pré-processamento. Como alternativa, propomos o meta-dataset PIPES, o segundo estudo da tese, que consiste em uma coleção de experimentos envolvendo múltiplos pipelines, projetados para representar todas as combinações selecionadas de técnicas incluindo diferentes blocos de pré-processamento e um bloco de classificação. Após a construção do PIPES, utilizamos este meta-dataset no terceiro estudo da tese, o MetaML 2.0, para verificar se é possível obter resultados ainda melhores com uma representatividade mais ampla dos pipelines. Os experimentos demonstraram que, de fato, a abordagem proporcionou desempenhos melhores em determinados conjuntos de dados.pt_BR
dc.contributor.advisor-coLatteshttp://lattes.cnpq.br/1143656271684404pt_BR
Aparece en las colecciones: Teses de Doutorado - Ciência da Computação

Ficheros en este ítem:
Fichero Descripción Tamaño Formato  
TESE Cynthia Moreira Maia.pdf2.62 MBAdobe PDFVista previa
Visualizar/Abrir


Este ítem está protegido por copyright original



Este ítem está sujeto a una licencia Creative Commons Licencia Creative Commons Creative Commons