Skip navigation
Please use this identifier to cite or link to this item: https://repositorio.ufpe.br/handle/123456789/66860

Share on

Full metadata record
DC FieldValueLanguage
dc.contributor.advisorPRUDÊNCIO, Ricardo Bastos Cavalcante-
dc.contributor.authorFRANÇA, Luis Vinicius Lauriano de-
dc.date.accessioned2025-11-13T14:35:02Z-
dc.date.available2025-11-13T14:35:02Z-
dc.date.issued2025-07-20-
dc.identifier.citationFRANÇA, Luis Vinicius Lauriano de. Balanceamento de dados para mitigar vieses amostrais e algorítmicos: um estudo comparativo. 2025. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Pernambuco, Recife, 2025.pt_BR
dc.identifier.urihttps://repositorio.ufpe.br/handle/123456789/66860-
dc.description.abstractA crescente aplicação de modelos de aprendizado de máquina em decisões de alto im pacto social exige uma análise rigorosa de seus potenciais vieses. A justiça algorítmica é um campo de pesquisa fundamental, que frequentemente lida com desafios técnicos como o des balanceamento de grupos sociais, onde a sub-representação de grupos pode levar a resultados discriminatórios. Técnicas de balanceamento de dados são amplamente utilizadas para me lhorar a performance preditiva nesses cenários, mas seu impacto sobre a equidade do modelo é pouco compreendido. O objetivo deste trabalho foi, portanto, investigar empiricamente o trade-off entre performance preditiva e justiça algorítmica ao aplicar um conjunto de dez téc nicas de balanceamento de dados. Para tal, foi conduzido um estudo comparativo de larga escala, avaliando dez abordagens de balanceamento de dados sobre oito bases de dados dis tintas, com onze algoritmos de classificação. A análise foi conduzida sob uma ótica dupla, avaliando-se tanto a performance preditiva, medida principalmente pelo F1-Score, quanto a justiça algorítmica, quantificada por meio de índices de paridade de grupo. Os resultados de monstram que a eficácia de cada técnica é altamente dependente do contexto da base de dados. Enquanto técnicas de sobreamostragem, como o SMOTE, frequentemente ofereceram umbomequilíbrio entre ganho de performance e mitigação de viés, abordagens de subamostra gem agressiva mostraram-se capazes de degradar a equidade em cenários de desbalanceamento severo, evidenciando um trade-off crítico. Conclui-se que não existe uma técnica de balance amento universalmente superior e que a construção de modelos de aprendizado de máquina justos exige uma avaliação conjunta e contextual de múltiplas métricas. Este trabalho contribui com um mapeamento empírico dos efeitos dessas técnicas, oferecendo um guia prático para a seleção de estratégias de mitigação de viés de forma mais consciente e responsável.pt_BR
dc.language.isoporpt_BR
dc.publisherUniversidade Federal de Pernambucopt_BR
dc.rightsopenAccesspt_BR
dc.rights.urihttps://creativecommons.org/licenses/by-nc-nd/4.0/pt_BR
dc.subjectAprendizado de máquinapt_BR
dc.subjectJustiça algorítmicapt_BR
dc.subjectBalanceamento de dadospt_BR
dc.titleBalanceamento de dados para mitigar vieses amostrais e algorítmicos: um estudo comparativopt_BR
dc.typemasterThesispt_BR
dc.contributor.authorLatteshttp://lattes.cnpq.br/3388441052716079pt_BR
dc.publisher.initialsUFPEpt_BR
dc.publisher.countryBrasilpt_BR
dc.degree.levelmestradopt_BR
dc.contributor.advisorLatteshttp://lattes.cnpq.br/2984888073123287pt_BR
dc.publisher.programPrograma de Pos Graduacao em Ciencia da Computacaopt_BR
dc.description.abstractxThe increasing use of machine learning models in high-stakes decision-making requires a rigorous analysis of their potential biases. Algorithmic fairness is a fundamental research field that often deals with technical challenges such as the imbalance of social groups, where the underrepresentation of certain groups can lead to discriminatory outcomes. Data balancing techniques are widely used to improve predictive performance in such scenarios, but their im pact on model fairness is still poorly understood. This study aims to empirically investigate the trade-off between predictive performance and algorithmic fairness by applying ten differ ent data balancing techniques. To this end, a large-scale comparative study was conducted, evaluating ten balancing approaches across eight different datasets using eleven classification algorithms. The analysis adopted a dual perspective, employing standard metrics to measure predictive performance and five fairness metrics, computed using the DALEX library, to assess algorithmic fairness. The results show that the effectiveness of each technique is highly de pendent on the dataset context. While oversampling methods such as SMOTE often provided a good balance between performance gains and bias mitigation, aggressive undersampling ap proaches were found to degrade fairness in highly imbalanced scenarios, revealing a critical trade-off. The study concludes that there is no universally superior balancing technique, and that building fair machine learning models requires a joint, context-aware evaluation of mul tiple metrics. This work contributes an empirical mapping of the effects of these techniques, offering a practical guide for more conscious and responsible bias mitigation strategy selection.pt_BR
Appears in Collections:Dissertações de Mestrado - Ciência da Computação

Files in This Item:
File Description SizeFormat 
DISSERTAÇÃO Luis Vinicius Lauriano de Franca.pdf598.47 kBAdobe PDFThumbnail
View/Open


This item is protected by original copyright



This item is licensed under a Creative Commons License Creative Commons