Uma estratégia para seleção de atributos em dados não paramétricos com aplicações em aprendizado de máquina

DANTAS, Camila de Sousa

Use este identificador para citar ou linkar para este item: https://repositorio.ufpe.br/handle/123456789/67847

Compartilhe esta página

Título:	Uma estratégia para seleção de atributos em dados não paramétricos com aplicações em aprendizado de máquina
Autor(es):	DANTAS, Camila de Sousa
Palavras-chave:	Seleção de atributos; Técnicas não paramétricas; Redução de dimensionalidade
Data do documento:	28-Ago-2025
Editor:	Universidade Federal de Pernambuco
Citação:	DANTAS, Camila de Sousa. Uma estratégia para seleção de atributos em dados não paramétricos com aplicações em aprendizado de máquina. 2025. Dissertação (Mestrado em Ciências da Computação) - Universidade Federal de Pernambuco, Recife, 2025.
Abstract:	A análise de dados não paramétricos, desbalanceados e de alta dimensionalidade é um desafio recorrente em diversas aplicações de Aprendizado de Máquina (AM), onde métodos tradicio nais de Seleção de Características (FS) frequentemente falham devido a suposições restritivas (como normalidade dos dados) ou alto custo computacional. Este trabalho propõe uma es-tratégia abrangente de FS para sistemas baseados em AM por meio de uma abordagem não paramétrica, robusta e escalável. O modelo é estruturado em três estágios: filtragem, clusteri-zação e ranqueamento, utilizando métricas adaptadas como entropia de Shannon, correlação de Spearman, distância de Bhattacharyya modificada e Informação Mútua Ajustada (AMI). que dispensam premissas rígidas sobre a distribuição dos dados. Implementado em Python, o algoritmo foi validado experimentalmente em múltiplos cenários, incluindo estudos de caso em cibersegurança com bases de dados reais de tráfego de rede e ataques cibernéticos, em-pregando classificadores como Floresta Aleatória (RF), validação cruzada e testes estatísticos não paramétricos (Friedman e Nemenyi). Os resultados demonstraram redução de 81,5% no número total de características, considerando a média da redução nos três datasets utiliza-dos, sem comprometer a exatidão, com superioridade estatística (p-valor <0,05) em métricas como exatidão(ou acurácia), Pontuação F1 (média harmônica de precisão e revocação) (F1) e Área sob a Curva ROC (Característica de Operação do Receptor) (AUC-ROC) em compa-ração a métodos tradicionais, além de reduzir o tempo de processamento em até 3,8 vezes em comparação com a classificação sobre os conjuntos de dados completos. A estratégia pro-posta não apenas melhora a eficiência computacional e a performance preditiva em problemas complexos, mas também amplia a explicabilidade e adaptabilidade a domínios com dados he-terogêneos, oferecendo uma alternativa para a seleção de atributos em cenários onde dados não paramétricos são predominantes.
URI:	https://repositorio.ufpe.br/handle/123456789/67847
Aparece nas coleções:	Dissertações de Mestrado - Ciência da Computação

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
DISSERTAÇÃO Camila de Sousa Dantas.pdf		7.18 MB	Adobe PDF	Visualizar/Abrir

Este arquivo é protegido por direitos autorais

Ver licença

Mostrar registro completo do item Recomendar este item Visualizar estatísticas

Este item está licenciada sob uma Licença Creative Commons