Use este identificador para citar ou linkar para este item:
https://repositorio.ufpe.br/handle/123456789/44252
Compartilhe esta página
Registro completo de metadados
Campo DC | Valor | Idioma |
---|---|---|
dc.contributor.advisor | PRUDENCIO, Ricardo Bastos Cavalcante | - |
dc.contributor.author | CARVALHO, Mailton Fernandes de | - |
dc.date.accessioned | 2022-04-29T18:44:02Z | - |
dc.date.available | 2022-04-29T18:44:02Z | - |
dc.date.issued | 2021-11-25 | - |
dc.identifier.citation | CARVALHO, Mailton Fernandes de. Um processo para construção de tesauros de domínio específico no contexto de uma empresa de teste de software. 2021. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Pernambuco, Recife, 2021. | pt_BR |
dc.identifier.uri | https://repositorio.ufpe.br/handle/123456789/44252 | - |
dc.description.abstract | Atualmente, grandes empresas de software mantêm repositórios com milhares de documentos textuais. Contudo, as variações de terminologia verificadas nos documentos internos dificultam o processamento automático dos textos, tão importante nesses contextos. Esse problema se intensifica no cenário atual, no qual empresas usam sistemas de Recuperação de Informação (RI) para localizar documentos relevantes para uma diversidade de tarefas. Como os termos usados nas consultas nem sempre estão presentes nos documentos relevantes, nem sempre é possível recuperar todos os documentos relevantes para a atividade em curso. Uma opção para melhorar o desempenho de sistemas de processamento de texto é a utilização de Tesauros (dicionários de sinônimos e termos relacionados). Tesauros podem ser usados tanto em sistemas de RI, para expansão automática de consultas, como para melhorar o desempenho de classificadores de texto, ou apenas para prover um vocabulário padrão para composição de documentos internos da empresa. Contudo, dicionários genéricos, como o WordNet, não são apropriados para aplicações de domínio específico, principalmente devido à ambiguidade lexical. Nesse contexto, este trabalho propõe um processo para a geração de tesauros de domínio específico, criados a partir de documentos disponíveis nos repositórios das empresas. O processo recebe como entrada documentos textuais, e extrai desses documentos os termos relevantes para o domínio da Empresa. Em seguida, os termos relacionados são agregados em conjuntos. O processo utiliza técnicas de Processamento de Linguagem Natural, como POS-tagging, RegEx e n-gramas para enriquecer o dicionário de sinônimos com termos compostos, siglas e abreviações. Finalmente, os conjuntos de saída de palavras/termos relacionados são indexados e disponibilizados para consulta manual ou automática. Este trabalho foi desenvolvido no contexto de um projeto de cooperação de pesquisa em Teste de SW entre a Motorola Mobility (uma empresa Lenovo) e o CIn-UFPE. Como tal, nosso estudo de caso se concentrou no domínio de teste de SW. O tesauro construído através do protótipo implementado foi na expansão automática de consultas para melhorar o desempenho de dois sistemas de RI da Motorola Mobility. Testes comparativos revelaram melhores taxas de cobertura de recuperação e melhorias na classificação de documentos relevantes nesses dois sistemas. Esses resultados são muito importantes em cenários do mundo real, nos quais os testadores nem sempre têm tempo para analisar todos os documentos existentes. | pt_BR |
dc.description.sponsorship | FACEPE | pt_BR |
dc.language.iso | por | pt_BR |
dc.publisher | Universidade Federal de Pernambuco | pt_BR |
dc.rights | openAccess | pt_BR |
dc.rights | Attribution-NonCommercial-NoDerivs 3.0 Brazil | * |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/3.0/br/ | * |
dc.subject | Inteligência computacional | pt_BR |
dc.subject | Criação de tesauros | pt_BR |
dc.subject | Recuperação de informação | pt_BR |
dc.subject | Mineração de texto | pt_BR |
dc.subject | Teste de software | pt_BR |
dc.title | Um processo para construção de tesauros de domínio específico no contexto de uma empresa de teste de software | pt_BR |
dc.type | masterThesis | pt_BR |
dc.contributor.advisor-co | BARROS, Flávia de Almeida | - |
dc.contributor.authorLattes | http://lattes.cnpq.br/8431763984059618 | pt_BR |
dc.publisher.initials | UFPE | pt_BR |
dc.publisher.country | Brasil | pt_BR |
dc.degree.level | mestrado | pt_BR |
dc.contributor.advisorLattes | http://lattes.cnpq.br/2984888073123287 | pt_BR |
dc.publisher.program | Programa de Pos Graduacao em Ciencia da Computacao | pt_BR |
dc.description.abstractx | Currently, large software companies maintain repositories with thousands of textual documents. However, the variations in terminology found in internal documents make the automatic processing of texts, which is so important in these contexts, difficult. This problem is intensified in the current scenario, in which companies use Information Retrieval (IR) systems to locate relevant documents for a variety of tasks. As the terms used in queries are not always present in the relevant documents, it is not always possible to retrieve all documents relevant to the ongoing activity. One option to improve the performance of word processing systems is the use of Thesaurus (dictionaries of synonyms and related terms). Thesaurus can be used either in IR systems, for automatic query expansion, or to improve the performance of text classifiers, or just to provide a standard vocabulary for composing internal company documents. However, generic dictionaries such as WordNet are not suitable for domain specific applications, mainly due to lexical ambiguity. In this context, this work proposes a process for the generation of domain-specific thesauruses, created from documents available in companies' repositories. The process receives textual documents as input, and extracts from these documents the terms relevant to the Company's domain. The related terms are then aggregated into sets. The process uses Natural Language Processing techniques such as POS-tagging, RegEx and n-grams to enrich the thesaurus with compound terms, acronyms and abbreviations. Finally, the output sets of related words/terms are indexed and made available for manual or automatic query. This work was developed in the context of a research cooperation project on SW Testing between Motorola Mobility (a Lenovo company) and CIn-UFPE. As such, our case study focused on the SW testing domain. The thesaurus built through the implemented prototype was the automatic expansion of queries to improve the performance of two RI systems from Motorola Mobility. Comparative testing has revealed better retrieval coverage rates and improvements in the classification of relevant documents on these two systems. These results are very important in real-world scenarios where testers don't always have time to analyze all existing documents. | pt_BR |
dc.contributor.advisor-coLattes | http://lattes.cnpq.br/5390541720896559 | pt_BR |
Aparece nas coleções: | Dissertações de Mestrado - Ciência da Computação |
Arquivos associados a este item:
Arquivo | Descrição | Tamanho | Formato | |
---|---|---|---|---|
DISSERTAÇÃO Mailton Fernandes de Carvalho.pdf | 1,34 MB | Adobe PDF | ![]() Visualizar/Abrir |
Este arquivo é protegido por direitos autorais |
Este item está licenciada sob uma Licença Creative Commons