Provendo acesso ao conteúdo de documentos centenários : um processo de correção e melhoria do texto extraído de imagens utilizando técnicas de processamento de linguagem natural

SILVA, Diana Marcela da

Please use this identifier to cite or link to this item: https://repositorio.ufpe.br/handle/123456789/53922

Share on

Title:	Provendo acesso ao conteúdo de documentos centenários : um processo de correção e melhoria do texto extraído de imagens utilizando técnicas de processamento de linguagem natural
Authors:	SILVA, Diana Marcela da
Keywords:	Inteligência computacional; Linguagem natural - processamento
Issue Date:	28-Aug-2023
Publisher:	Universidade Federal de Pernambuco
Citation:	SILVA, Diana Marcela da. Provendo acesso ao conteúdo de documentos centenários: um processo de correção e melhoria do texto extraído de imagens utilizando técnicas de processamento de linguagem natural. 2023. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de Pernambuco, Recife, 2023.
Abstract:	Este estudo de mestrado foi desenvolvido em colaboração com o Laboratório LIBER (DCI-UFPE) dentro do contexto de um projeto mais amplo. O objetivo geral desse projeto é resgatar, preservar e disponibilizar livremente jornais centenários em língua portuguesa. O foco principal desta pesquisa de mestrado foi contribuir para o acesso a documentos centenários digitalizados (imagens) de modo a facilitar a realização de consultas baseadas em palavras-chave. Foi realizada a extração do texto dos documentos com o auxílio de algoritmos de Optical Chacater Recognition (OCR). No entanto, devido à idade e ao estado de conservação precário dos documentos, o desempenho do OCR nem sempre atingia níveis satisfatórios. Além disso, algumas palavras tinham grafia diferente da atual, tornando difícil a correção automática com base nos dicionários modernos das ferramentas de OCR e Processamento de Linguagem Natural (PLN) disponíveis. Assim, foi necessário desenvolver uma solução própria. Nesse contexto, a correção automática dos textos extraídos, a fim de identificar e dirimir erros de OCR, é a contribuição central deste trabalho. O corretor ortográfico PyEnchant serviu como base para essa solução devido ao seu alto desempenho. Foi necessário adaptar o dicionário de 1913 ao formato da PyEnchant, uma tarefa que não poderia ser executada manualmente devido ao grande número de termos presentes no dicionário (um total de 125.244 termos). Para superar esse desafio, foi implementado um processo com múltiplas etapas para automatizar a adaptação do dicionário de 1913 ao formato da PyEnchant, fazendo uso de técnicas oriundas da área de PLN. Testes iniciais realizados com algumas imagens disponíveis mostraram que essa abordagem obteve uma boa taxa de cobertura na correção dos erros do OCR. No entanto, alguns desafios persistem, como palavras que foram drasticamente modificadas pelo OCR devido à adição de letras. Essas questões serão abordadas em trabalhos futuros. Por fim, os textos corrigidos foram utilizados para indexar as imagens correspondentes, criando assim um repositório de livre acesso que permite consultas por palavras-chave. Essa etapa foi implementada com a biblioteca PySolr. Utilizamos aqui teorias e técnicas oriundas da área de Recuperação de Informação.
URI:	https://repositorio.ufpe.br/handle/123456789/53922
Appears in Collections:	Dissertações de Mestrado - Ciência da Computação

Files in This Item:

File	Description	Size	Format
DISSERTAÇÃO Diana Marcela da Silva.pdf		3.39 MB	Adobe PDF	View/Open

This item is protected by original copyright

View License

Show full item record Recommend this item

This item is licensed under a Creative Commons License