Skip navigation
Please use this identifier to cite or link to this item: https://repositorio.ufpe.br/handle/123456789/58828

Share on

Title: Binarização de documentos históricos baseado na estatística
Authors: QUEIROZ, Marcelo Herculino
Keywords: Informações; Armazenamento; Binarização; Estatística; Threshold
Issue Date: 16-Oct-2024
Citation: QUEIROZ, Marcelo Herculino. Binarização de documentos históricos baseado na estatística. 2024. 96 f. TCC (Graduação) - Curso de Engenharia Eletrônica, Departamento de Eletrônica e Sistemas, Centro de Tecnologia e Geociências, Universidade Federal de Pernambuco, Recife, 2024.
Abstract: A perda de informações ao longo da história é um fenômeno de grande relevância, pois é através do conhecimento que muitas culturas e tradições se perpetuam. Nesse sentido, surge a necessidade do armazenamento de documentos históricos. Atualmente, técnicas de binarização de imagens têm sido empregadas para extrair informações de textos históricos. Assim, este trabalho propõe a união da estatística ao processo de binarização, visando aprimorar a binarização, ao incorporar um threshold estatístico. O threshold é um valor que separa os pixels (menor unidade de uma imagem digital) de uma imagem em categorias. O objetivo é extrair dados de documentos históricos para realizar a análise da significância dos dados através do teste de normalidade das distribuições obtidas. A verificação da normalidade é fundamental para a validade de várias técnicas estatísticas, em especial os métodos paramétricos (técnicas estatísticas que só podem ser realizadas quando os dados seguem a normalidade), como a análise de variância (análise que compara as médias de três ou mais grupos para determinar se há diferenças significativas entre os grupos), que pressupõem que os dados sigam uma distribuição normal (distribuição simétrica em torno da média). A conformidade com este pressuposto é um requisito crucial para a validade dos resultados obtidos. Para garantir a normalidade ou pelo menos aproximar os dados dessa condição, faz-se uso de uma técnica estatística conhecida como bootstrapping. Este método cria múltiplas amostras a partir dos dados originais, possibilitando uma análise mais robusta da distribuição dos dados e a realização de ajustes necessários para garantir que atendam aos pressupostos de normalidade. Ao finalizar o processo de extração e análise dos dados são calculadas as médias locais das amostras e a média global, com o intuito de determinar o threshold para a binarização dos documentos históricos, que é o modelo proposto neste trabalho. Além do modelo proposto, são aplicadas outras técnicas de binarização clássicas, que visam realizar uma comparação entre os métodos tradicionais e o modelo desenvolvido. Essa comparação é efetuada utilizando métricas como a relação Sinal-Ruído de Pico (métrica que mede a qualidade de uma imagem) e o mapeamento de pixels nas imagens binarizadas, permitindo avaliar a qualidade das binarizações e identificar a técnica mais eficaz para a preservação da integridade das informações contidas nos documentos históricos.
URI: https://repositorio.ufpe.br/handle/123456789/58828
Appears in Collections:(TCC) - Eletrônica e Sistemas

Files in This Item:
File Description SizeFormat 
TCC_MARCELO_HERCULINO_QUEIROZ_MHQ-OK_rev_bib.pdf4,36 MBAdobe PDFThumbnail
View/Open


This item is protected by original copyright



This item is licensed under a Creative Commons License Creative Commons