Um processo para construção de tesauros de domínio específico no contexto de uma empresa de teste de software

CARVALHO, Mailton Fernandes de

Use este identificador para citar ou linkar para este item: https://repositorio.ufpe.br/handle/123456789/44252

Compartilhe esta página

Registro completo de metadados

Campo DC	Valor	Idioma
dc.contributor.advisor	PRUDENCIO, Ricardo Bastos Cavalcante	-
dc.contributor.author	CARVALHO, Mailton Fernandes de	-
dc.date.accessioned	2022-04-29T18:44:02Z	-
dc.date.available	2022-04-29T18:44:02Z	-
dc.date.issued	2021-11-25	-
dc.identifier.citation	CARVALHO, Mailton Fernandes de. Um processo para construção de tesauros de domínio específico no contexto de uma empresa de teste de software. 2021. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Pernambuco, Recife, 2021.	pt_BR
dc.identifier.uri	https://repositorio.ufpe.br/handle/123456789/44252	-
dc.description.abstract	Atualmente, grandes empresas de software mantêm repositórios com milhares de documentos textuais. Contudo, as variações de terminologia verificadas nos documentos internos dificultam o processamento automático dos textos, tão importante nesses contextos. Esse problema se intensifica no cenário atual, no qual empresas usam sistemas de Recuperação de Informação (RI) para localizar documentos relevantes para uma diversidade de tarefas. Como os termos usados nas consultas nem sempre estão presentes nos documentos relevantes, nem sempre é possível recuperar todos os documentos relevantes para a atividade em curso. Uma opção para melhorar o desempenho de sistemas de processamento de texto é a utilização de Tesauros (dicionários de sinônimos e termos relacionados). Tesauros podem ser usados tanto em sistemas de RI, para expansão automática de consultas, como para melhorar o desempenho de classificadores de texto, ou apenas para prover um vocabulário padrão para composição de documentos internos da empresa. Contudo, dicionários genéricos, como o WordNet, não são apropriados para aplicações de domínio específico, principalmente devido à ambiguidade lexical. Nesse contexto, este trabalho propõe um processo para a geração de tesauros de domínio específico, criados a partir de documentos disponíveis nos repositórios das empresas. O processo recebe como entrada documentos textuais, e extrai desses documentos os termos relevantes para o domínio da Empresa. Em seguida, os termos relacionados são agregados em conjuntos. O processo utiliza técnicas de Processamento de Linguagem Natural, como POS-tagging, RegEx e n-gramas para enriquecer o dicionário de sinônimos com termos compostos, siglas e abreviações. Finalmente, os conjuntos de saída de palavras/termos relacionados são indexados e disponibilizados para consulta manual ou automática. Este trabalho foi desenvolvido no contexto de um projeto de cooperação de pesquisa em Teste de SW entre a Motorola Mobility (uma empresa Lenovo) e o CIn-UFPE. Como tal, nosso estudo de caso se concentrou no domínio de teste de SW. O tesauro construído através do protótipo implementado foi na expansão automática de consultas para melhorar o desempenho de dois sistemas de RI da Motorola Mobility. Testes comparativos revelaram melhores taxas de cobertura de recuperação e melhorias na classificação de documentos relevantes nesses dois sistemas. Esses resultados são muito importantes em cenários do mundo real, nos quais os testadores nem sempre têm tempo para analisar todos os documentos existentes.	pt_BR
dc.description.sponsorship	FACEPE	pt_BR
dc.language.iso	por	pt_BR
dc.publisher	Universidade Federal de Pernambuco	pt_BR
dc.rights	openAccess	pt_BR
dc.rights	Attribution-NonCommercial-NoDerivs 3.0 Brazil	*
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/br/	*
dc.subject	Inteligência computacional	pt_BR
dc.subject	Criação de tesauros	pt_BR
dc.subject	Recuperação de informação	pt_BR
dc.subject	Mineração de texto	pt_BR
dc.subject	Teste de software	pt_BR
dc.title	Um processo para construção de tesauros de domínio específico no contexto de uma empresa de teste de software	pt_BR
dc.type	masterThesis	pt_BR
dc.contributor.advisor-co	BARROS, Flávia de Almeida	-
dc.contributor.authorLattes	http://lattes.cnpq.br/8431763984059618	pt_BR
dc.publisher.initials	UFPE	pt_BR
dc.publisher.country	Brasil	pt_BR
dc.degree.level	mestrado	pt_BR
dc.contributor.advisorLattes	http://lattes.cnpq.br/2984888073123287	pt_BR
dc.publisher.program	Programa de Pos Graduacao em Ciencia da Computacao	pt_BR
dc.description.abstractx	Currently, large software companies maintain repositories with thousands of textual documents. However, the variations in terminology found in internal documents make the automatic processing of texts, which is so important in these contexts, difficult. This problem is intensified in the current scenario, in which companies use Information Retrieval (IR) systems to locate relevant documents for a variety of tasks. As the terms used in queries are not always present in the relevant documents, it is not always possible to retrieve all documents relevant to the ongoing activity. One option to improve the performance of word processing systems is the use of Thesaurus (dictionaries of synonyms and related terms). Thesaurus can be used either in IR systems, for automatic query expansion, or to improve the performance of text classifiers, or just to provide a standard vocabulary for composing internal company documents. However, generic dictionaries such as WordNet are not suitable for domain specific applications, mainly due to lexical ambiguity. In this context, this work proposes a process for the generation of domain-specific thesauruses, created from documents available in companies' repositories. The process receives textual documents as input, and extracts from these documents the terms relevant to the Company's domain. The related terms are then aggregated into sets. The process uses Natural Language Processing techniques such as POS-tagging, RegEx and n-grams to enrich the thesaurus with compound terms, acronyms and abbreviations. Finally, the output sets of related words/terms are indexed and made available for manual or automatic query. This work was developed in the context of a research cooperation project on SW Testing between Motorola Mobility (a Lenovo company) and CIn-UFPE. As such, our case study focused on the SW testing domain. The thesaurus built through the implemented prototype was the automatic expansion of queries to improve the performance of two RI systems from Motorola Mobility. Comparative testing has revealed better retrieval coverage rates and improvements in the classification of relevant documents on these two systems. These results are very important in real-world scenarios where testers don't always have time to analyze all existing documents.	pt_BR
dc.contributor.advisor-coLattes	http://lattes.cnpq.br/5390541720896559	pt_BR
Aparece nas coleções:	Dissertações de Mestrado - Ciência da Computação

Arquivos associados a este item:

Arquivo	Descrição	Tamanho	Formato
DISSERTAÇÃO Mailton Fernandes de Carvalho.pdf		1,34 MB	Adobe PDF	Visualizar/Abrir

Este arquivo é protegido por direitos autorais

Ver licença

Mostrar registro simples do item Recomendar este item Visualizar estatísticas

Este item está licenciada sob uma Licença Creative Commons