Skip navigation
Use este identificador para citar ou linkar para este item: https://repositorio.ufpe.br/handle/123456789/37774

Compartilhe esta página

Título: Classificação de assinaturas manuscritas com quantificadores não paramétricos
Autor(es): COSTA, Ranah Duarte
Palavras-chave: Estatística aplicada; Classificação binária
Data do documento: 20-Fev-2020
Editor: Universidade Federal de Pernambuco
Citação: COSTA, Ranah Duarte. Classificação de assinaturas manuscritas com quantificadores não paramétricos. 2020. Dissertação (Mestrado em Estatística) - Universidade Federal de Pernambuco, Recife, 2020.
Abstract: Essa dissertação tem como objetivo utilizar quantificadores não paramétricos no processo de classificação binária de assinaturas manuscritas. Os dados representam as informações das assinaturas de 100 indivíduos da base de dados MCYT (MCYT Fingerprint subcorpus), sendo que para cada indivíduo apresenta-se réplicas com 25 assinaturas falsas e 25 assinaturas verdadeiras. Aqui, as assinaturas falsas e verdadeiras são rotuladas com zeros e uns no problema de classificação binária, respectivamente. Para o processamento da cada assinatura é extraída a série temporal correspondente a cada coordenada do plano xy. Adicionalmente, para cada uma das séries temporais obtidas, foram calculadas a primeira e a segunda derivada a fim de avaliar a dinâmica em termos de sua velocidade e a aceleração, respectivamente. Também, em cada uma das séries temporais foram extraídos quantificadores de informação não paramétricos a partir da distribuição de padrões (feature extraction), a saber: entropia, complexidade, informação de Fisher e tendência. De posse dos quantificadores extraídos, uma nova base de dados foi construída a fim de avaliar a capacidade dessas informações para separar as assinaturas falsas e verdadeiras. Dessa maneira, foram usados critérios de seleção de variáveis para a classificação, sendo esses: Ganho de informação, análise de variância (ANOVA) e fator de inflação da variância. No que tange aos classificadores, foram utilizados a Regressão Logística, Máquinas de Vetores de Suporte (SVM), Florestas aleatórias (Random Forest), XGBoost (Extreme Gradient Boosting) e regressão regularizada tipo LASSO e Ridge. Neste trabalho, as métricas de avaliação de performance dos classificadores foram a acurácia, sensibilidade, especificidade, área sob a curva ROC (AUC) e taxa de erro de classificação. Os resultados mostram que, entre os quantificadores utilizados, a complexidade, a Informação de Fisher e a estatística de Wallis e Moore foram os quantificadores não paramétricos que conseguem melhorar a performance dos classificadores. Adicionalmente, os classificadores SVM e Florestas aleatórias apresentaram melhor desempenho no grupo de teste quando comparados aos demais segundos as métricas usadas. Por outro lado, a etapa de classificação usando a regressão regularizada tipo LASSO e Ridge e a Regressão Logística não regularizada mostrou que, para esse conjunto de dados, a regressão não regularizada apresenta melhor desempenho.
URI: https://repositorio.ufpe.br/handle/123456789/37774
Aparece nas coleções:Dissertações de Mestrado - Estatística

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
DISSERTAÇÃO Ranah Duarte Costa.pdf10,14 MBAdobe PDFThumbnail
Visualizar/Abrir


Este arquivo é protegido por direitos autorais



Este item está licenciada sob uma Licença Creative Commons Creative Commons