Skip navigation
Por favor, use este identificador para citar o enlazar este ítem: https://repositorio.ufpe.br/handle/123456789/62327

Comparte esta pagina

Registro completo de metadatos
Campo DC Valor Lengua/Idioma
dc.contributor.advisorCAVALCANTI, George Darmiton da Cunha-
dc.contributor.authorAMORIM, Lucas Benevides Viana de-
dc.date.accessioned2025-04-15T19:17:46Z-
dc.date.available2025-04-15T19:17:46Z-
dc.date.issued2025-02-18-
dc.identifier.citationAMORIM, Lucas Benevides Viana de. Meta-scaler+: a meta-learning based solution for model- specific recommendations of scaling techniques. 2025. Tese (Doutorado em Curso) – Universidade Federal de Pernambuco, Recife, 2025.pt_BR
dc.identifier.urihttps://repositorio.ufpe.br/handle/123456789/62327-
dc.description.abstractDataset scaling, or normalization, is an essential preprocessing step in a machine learning pipeline. It adjusts attributes’ scales in a way that they all vary within the same range. This transformation is widely assumed to improve the performance of classification models, but very few studies empirically verify this assumption. As a first contribution, this thesis compares the impacts of different scaling techniques (STs) on the performance of several classifiers. Its results show that the choice of scaling technique matters for classification performance, and the performance difference between the best and the worst scaling technique is relevant and statistically significant in most cases. However, there are several STs to choose from, and the process of manually finding, via trial and error, the most suitable technique for a certain dataset can be unfeasible. As an alternative to this, we propose employing meta-learning to select the best ST for a given dataset automatically. Therefore, in our second study, we propose the Meta-scaler, a framework that learns and trains a set of meta-models to represent the relationship between meta-features extracted from the datasets and the performance of a set of classification algorithms on these datasets when they are scaled with different techniques. These meta-models are able to recommend a single optimal ST for a given query dataset, taking into account also the query classifier. The Meta-scaler yielded better classification performance than any choice of a single ST for 10 out of the 12 base models tested and also outperformed state-of-the-art meta-learning methods for ST selection. Then, in our third study, we proposed Meta-scaler+, where we extended the functionality of Meta-scaler, eliminating its limitations by introducing an innovative classifier characterization method, the Classifier Performance Space, which allows us to dynamically combine meta-models for specialized ST recommendations for any query classifier and query dataset. Despite the additional flexibility, Meta-scaler+ performance is competitive with Meta-scaler and superior to other state-of-the- art solutions. In future work, we will invest in improving dataset representation (meta-features), improving Classifier Performance Space initialization, and making Meta-scaler+ a practical and accessible tool, enabling its integration with popular machine-learning libraries.pt_BR
dc.language.isoengpt_BR
dc.publisherUniversidade Federal de Pernambucopt_BR
dc.rightsopenAccesspt_BR
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/br/*
dc.subjectClassificaçãopt_BR
dc.subjectScalingpt_BR
dc.subjectMeta-aprendizagempt_BR
dc.subjectNormalizaçãopt_BR
dc.subjectPreprocessamentopt_BR
dc.titleMeta-scaler+ : a meta-learning based solution for model- specific recommendations of scaling techniquespt_BR
dc.typedoctoralThesispt_BR
dc.contributor.advisor-coCRUZ, Rafael Menelau Oliveira e-
dc.contributor.authorLatteshttp://lattes.cnpq.br/2470781099632240pt_BR
dc.publisher.initialsUFPEpt_BR
dc.publisher.countryBrasilpt_BR
dc.degree.leveldoutoradopt_BR
dc.contributor.advisorLatteshttp://lattes.cnpq.br/8577312109146354pt_BR
dc.publisher.programPrograma de Pos Graduacao em Ciencia da Computacaopt_BR
dc.description.abstractxA normalização (scaling) de conjuntos de dados é uma etapa essencial de pré-processamento em um pipeline de aprendizado de máquina. Ela visa ajustar as escalas de atributos de forma que todos variem dentro do mesmo intervalo. Essa transformação é amplamente reconhecida como necessária para melhorar o desempenho dos modelos de classificação, mas muito poucos estudos verificam empiricamente essa relação. Como primeira contribuição, esta tese compara os impactos de diferentes técnicas de scaling (STs) no desempenho de vários classificadores. Seus resultados mostram que a escolha da técnica de scaling importa para o desempenho da classificação, e a diferença de desempenho entre a melhor e a pior técnica é relevante e estatisticamente significativa na maioria dos casos. No entanto, há várias STs para escolher, e o processo de encontrar manualmente, por tentativa e erro, a técnica mais adequada para um determinado conjunto de dados pode ser inviável. Como alternativa, propomos empre- gar meta-aprendizagem para selecionar automaticamente a melhor ST para um determinado conjunto de dados. Portanto, em nosso segundo estudo, propomos o Meta-scaler, um frame- work que aprende e treina um conjunto de meta-modelos para representar a relação entre meta-características extraídas dos conjuntos de dados e o desempenho de um conjunto de algoritmos de classificação nesses conjuntos de dados quando eles são normalizados com difer- entes técnicas. Esses meta-modelos são capazes de recomendar uma única ST ótima para um determinado conjunto de dados de consulta, levando em consideração também o classificador de consulta. O Meta-scaler produziu melhor desempenho de classificação do que qualquer es- colha de uma única ST para 10 dos 12 modelos base testados e também superou os métodos de meta-aprendizagem do estado da arte para seleção de ST. Finalmente, em nosso terceiro estudo, propomos o Meta-scaler+, onde estendemos a funcionalidade do Meta-scaler, elimi- nando suas limitações ao introduzir um método inovador de caracterização de classificadores, o Classifier Performance Space, que nos permite combinar dinamicamente meta-modelos para recomendações especializadas de ST para qualquer classificador e conjunto de dados. Apesar da flexibilidade adicional, o desempenho do Meta-scaler+ é competitivo com o Meta-scaler e superior a outras soluções do estado da arte. Para as próximas etapas do desenvolvimento desta pesquisa, investiremos na melhoria da representação do conjunto de dados (meta-recursos), melhorando a inicialização do Classifier Performance Space e tornando o Meta-scaler+ uma ferramenta prática e acessível, permitindo sua integração com bibliotecas populares de apren- dizado de máquina.pt_BR
Aparece en las colecciones: Teses de Doutorado - Ciência da Computação

Ficheros en este ítem:
Fichero Descripción Tamaño Formato  
TESE Lucas Benevides Viana de Amorim.pdf2,3 MBAdobe PDFVista previa
Visualizar/Abrir


Este ítem está protegido por copyright original



Este ítem está sujeto a una licencia Creative Commons Licencia Creative Commons Creative Commons