Provendo acesso ao conteúdo de documentos centenários : um processo de correção e melhoria do texto extraído de imagens utilizando técnicas de processamento de linguagem natural

SILVA, Diana Marcela da

Please use this identifier to cite or link to this item: https://repositorio.ufpe.br/handle/123456789/53922

Share on

Full metadata record

DC Field	Value	Language
dc.contributor.advisor	BARROS, Flávia de Almeida	-
dc.contributor.author	SILVA, Diana Marcela da	-
dc.date.accessioned	2023-12-05T14:09:33Z	-
dc.date.available	2023-12-05T14:09:33Z	-
dc.date.issued	2023-08-28	-
dc.identifier.citation	SILVA, Diana Marcela da. Provendo acesso ao conteúdo de documentos centenários: um processo de correção e melhoria do texto extraído de imagens utilizando técnicas de processamento de linguagem natural. 2023. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de Pernambuco, Recife, 2023.	pt_BR
dc.identifier.uri	https://repositorio.ufpe.br/handle/123456789/53922	-
dc.description.abstract	Este estudo de mestrado foi desenvolvido em colaboração com o Laboratório LIBER (DCI-UFPE) dentro do contexto de um projeto mais amplo. O objetivo geral desse projeto é resgatar, preservar e disponibilizar livremente jornais centenários em língua portuguesa. O foco principal desta pesquisa de mestrado foi contribuir para o acesso a documentos centenários digitalizados (imagens) de modo a facilitar a realização de consultas baseadas em palavras-chave. Foi realizada a extração do texto dos documentos com o auxílio de algoritmos de Optical Chacater Recognition (OCR). No entanto, devido à idade e ao estado de conservação precário dos documentos, o desempenho do OCR nem sempre atingia níveis satisfatórios. Além disso, algumas palavras tinham grafia diferente da atual, tornando difícil a correção automática com base nos dicionários modernos das ferramentas de OCR e Processamento de Linguagem Natural (PLN) disponíveis. Assim, foi necessário desenvolver uma solução própria. Nesse contexto, a correção automática dos textos extraídos, a fim de identificar e dirimir erros de OCR, é a contribuição central deste trabalho. O corretor ortográfico PyEnchant serviu como base para essa solução devido ao seu alto desempenho. Foi necessário adaptar o dicionário de 1913 ao formato da PyEnchant, uma tarefa que não poderia ser executada manualmente devido ao grande número de termos presentes no dicionário (um total de 125.244 termos). Para superar esse desafio, foi implementado um processo com múltiplas etapas para automatizar a adaptação do dicionário de 1913 ao formato da PyEnchant, fazendo uso de técnicas oriundas da área de PLN. Testes iniciais realizados com algumas imagens disponíveis mostraram que essa abordagem obteve uma boa taxa de cobertura na correção dos erros do OCR. No entanto, alguns desafios persistem, como palavras que foram drasticamente modificadas pelo OCR devido à adição de letras. Essas questões serão abordadas em trabalhos futuros. Por fim, os textos corrigidos foram utilizados para indexar as imagens correspondentes, criando assim um repositório de livre acesso que permite consultas por palavras-chave. Essa etapa foi implementada com a biblioteca PySolr. Utilizamos aqui teorias e técnicas oriundas da área de Recuperação de Informação.	pt_BR
dc.description.sponsorship	CAPES	pt_BR
dc.language.iso	por	pt_BR
dc.publisher	Universidade Federal de Pernambuco	pt_BR
dc.rights	openAccess	pt_BR
dc.rights	Attribution-NonCommercial-NoDerivs 3.0 Brazil	*
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/br/	*
dc.subject	Inteligência computacional	pt_BR
dc.subject	Linguagem natural - processamento	pt_BR
dc.title	Provendo acesso ao conteúdo de documentos centenários : um processo de correção e melhoria do texto extraído de imagens utilizando técnicas de processamento de linguagem natural	pt_BR
dc.type	masterThesis	pt_BR
dc.contributor.authorLattes	http://lattes.cnpq.br/5871716806835641	pt_BR
dc.publisher.initials	UFPE	pt_BR
dc.publisher.country	Brasil	pt_BR
dc.degree.level	mestrado	pt_BR
dc.contributor.advisorLattes	http://lattes.cnpq.br/5390541720896559	pt_BR
dc.publisher.program	Programa de Pos Graduacao em Ciencia da Computacao	pt_BR
dc.description.abstractx	This master's study was developed in collaboration with the LIBER Laboratory (DCI- UFPE) within the context of a broader project. The overall goal of this project is to retrieve, preserve, and freely provide access to centenary newspapers in the Portuguese language. The primary focus of this master's research was to contribute to the accessibility of digitized centenary documents (images) to facilitate keyword- based queries. Text extraction from the documents was performed using Optical Character Recognition (OCR) algorithms. However, due to the age and poor condition of the documents, the OCR performance did not always reach satisfactory levels. Additionally, some words had different spellings from contemporary language, making automatic correction based on modern dictionaries from OCR and Natural Language Processing (NLP) tools challenging. Hence, it was necessary to develop a custom solution. In this context, the automatic correction of extracted texts to identify and rectify OCR errors is the central contribution of this work. The PyEnchant spell checker served as the foundation for this solution due to its high performance. Adapting the 1913 dictionary to the PyEnchant format was essential, but this task could not be done manually due to the large number of terms in the dictionary (a total of 125,244 terms). To overcome this challenge, a multi-step process was implemented to automate the adaptation of the 1913 dictionary to the PyEnchant format, utilizing techniques from the field of NLP. Initial tests with some available images demonstrated that this approach achieved a good coverage rate in correcting OCR errors. However, some challenges persisted, such as words that were significantly altered by the OCR due to the addition of extra letters. These issues will be addressed in future work. Finally, the corrected texts were used to index the corresponding images, creating a repository with open access for keyword-based queries. This stage was implemented using the PySolr library and incorporated theories and techniques from the field of Information Retrieval.	pt_BR
Appears in Collections:	Dissertações de Mestrado - Ciência da Computação

Files in This Item:

File	Description	Size	Format
DISSERTAÇÃO Diana Marcela da Silva.pdf		3.39 MB	Adobe PDF	Visualizar/Abrir

Este ítem está protegido por copyright original

Visualizar la licencia

Mostrar el registro sencillo del ítem Recomiende este ítem

Este ítem está sujeto a una licencia Creative Commons Licencia Creative Commons