Skip navigation
Use este identificador para citar ou linkar para este item: https://repositorio.ufpe.br/handle/123456789/44252

Compartilhe esta página

Registro completo de metadados
Campo DCValorIdioma
dc.contributor.advisorPRUDENCIO, Ricardo Bastos Cavalcante-
dc.contributor.authorCARVALHO, Mailton Fernandes de-
dc.date.accessioned2022-04-29T18:44:02Z-
dc.date.available2022-04-29T18:44:02Z-
dc.date.issued2021-11-25-
dc.identifier.citationCARVALHO, Mailton Fernandes de. Um processo para construção de tesauros de domínio específico no contexto de uma empresa de teste de software. 2021. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Pernambuco, Recife, 2021.pt_BR
dc.identifier.urihttps://repositorio.ufpe.br/handle/123456789/44252-
dc.description.abstractAtualmente, grandes empresas de software mantêm repositórios com milhares de documentos textuais. Contudo, as variações de terminologia verificadas nos documentos internos dificultam o processamento automático dos textos, tão importante nesses contextos. Esse problema se intensifica no cenário atual, no qual empresas usam sistemas de Recuperação de Informação (RI) para localizar documentos relevantes para uma diversidade de tarefas. Como os termos usados nas consultas nem sempre estão presentes nos documentos relevantes, nem sempre é possível recuperar todos os documentos relevantes para a atividade em curso. Uma opção para melhorar o desempenho de sistemas de processamento de texto é a utilização de Tesauros (dicionários de sinônimos e termos relacionados). Tesauros podem ser usados tanto em sistemas de RI, para expansão automática de consultas, como para melhorar o desempenho de classificadores de texto, ou apenas para prover um vocabulário padrão para composição de documentos internos da empresa. Contudo, dicionários genéricos, como o WordNet, não são apropriados para aplicações de domínio específico, principalmente devido à ambiguidade lexical. Nesse contexto, este trabalho propõe um processo para a geração de tesauros de domínio específico, criados a partir de documentos disponíveis nos repositórios das empresas. O processo recebe como entrada documentos textuais, e extrai desses documentos os termos relevantes para o domínio da Empresa. Em seguida, os termos relacionados são agregados em conjuntos. O processo utiliza técnicas de Processamento de Linguagem Natural, como POS-tagging, RegEx e n-gramas para enriquecer o dicionário de sinônimos com termos compostos, siglas e abreviações. Finalmente, os conjuntos de saída de palavras/termos relacionados são indexados e disponibilizados para consulta manual ou automática. Este trabalho foi desenvolvido no contexto de um projeto de cooperação de pesquisa em Teste de SW entre a Motorola Mobility (uma empresa Lenovo) e o CIn-UFPE. Como tal, nosso estudo de caso se concentrou no domínio de teste de SW. O tesauro construído através do protótipo implementado foi na expansão automática de consultas para melhorar o desempenho de dois sistemas de RI da Motorola Mobility. Testes comparativos revelaram melhores taxas de cobertura de recuperação e melhorias na classificação de documentos relevantes nesses dois sistemas. Esses resultados são muito importantes em cenários do mundo real, nos quais os testadores nem sempre têm tempo para analisar todos os documentos existentes.pt_BR
dc.description.sponsorshipFACEPEpt_BR
dc.language.isoporpt_BR
dc.publisherUniversidade Federal de Pernambucopt_BR
dc.rightsopenAccesspt_BR
dc.rightsAttribution-NonCommercial-NoDerivs 3.0 Brazil*
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/br/*
dc.subjectInteligência computacionalpt_BR
dc.subjectCriação de tesaurospt_BR
dc.subjectRecuperação de informaçãopt_BR
dc.subjectMineração de textopt_BR
dc.subjectTeste de softwarept_BR
dc.titleUm processo para construção de tesauros de domínio específico no contexto de uma empresa de teste de softwarept_BR
dc.typemasterThesispt_BR
dc.contributor.advisor-coBARROS, Flávia de Almeida-
dc.contributor.authorLatteshttp://lattes.cnpq.br/8431763984059618pt_BR
dc.publisher.initialsUFPEpt_BR
dc.publisher.countryBrasilpt_BR
dc.degree.levelmestradopt_BR
dc.contributor.advisorLatteshttp://lattes.cnpq.br/2984888073123287pt_BR
dc.publisher.programPrograma de Pos Graduacao em Ciencia da Computacaopt_BR
dc.description.abstractxCurrently, large software companies maintain repositories with thousands of textual documents. However, the variations in terminology found in internal documents make the automatic processing of texts, which is so important in these contexts, difficult. This problem is intensified in the current scenario, in which companies use Information Retrieval (IR) systems to locate relevant documents for a variety of tasks. As the terms used in queries are not always present in the relevant documents, it is not always possible to retrieve all documents relevant to the ongoing activity. One option to improve the performance of word processing systems is the use of Thesaurus (dictionaries of synonyms and related terms). Thesaurus can be used either in IR systems, for automatic query expansion, or to improve the performance of text classifiers, or just to provide a standard vocabulary for composing internal company documents. However, generic dictionaries such as WordNet are not suitable for domain specific applications, mainly due to lexical ambiguity. In this context, this work proposes a process for the generation of domain-specific thesauruses, created from documents available in companies' repositories. The process receives textual documents as input, and extracts from these documents the terms relevant to the Company's domain. The related terms are then aggregated into sets. The process uses Natural Language Processing techniques such as POS-tagging, RegEx and n-grams to enrich the thesaurus with compound terms, acronyms and abbreviations. Finally, the output sets of related words/terms are indexed and made available for manual or automatic query. This work was developed in the context of a research cooperation project on SW Testing between Motorola Mobility (a Lenovo company) and CIn-UFPE. As such, our case study focused on the SW testing domain. The thesaurus built through the implemented prototype was the automatic expansion of queries to improve the performance of two RI systems from Motorola Mobility. Comparative testing has revealed better retrieval coverage rates and improvements in the classification of relevant documents on these two systems. These results are very important in real-world scenarios where testers don't always have time to analyze all existing documents.pt_BR
dc.contributor.advisor-coLatteshttp://lattes.cnpq.br/5390541720896559pt_BR
Aparece nas coleções:Dissertações de Mestrado - Ciência da Computação

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
DISSERTAÇÃO Mailton Fernandes de Carvalho.pdf1,34 MBAdobe PDFThumbnail
Visualizar/Abrir


Este arquivo é protegido por direitos autorais



Este item está licenciada sob uma Licença Creative Commons Creative Commons