Please use this identifier to cite or link to this item:
https://repositorio.ufpe.br/handle/123456789/65586
Share on
Full metadata record
| DC Field | Value | Language |
|---|---|---|
| dc.contributor.advisor | CALEGARIO, Filiipe Carlos de Albuquerque | - |
| dc.contributor.author | VIEIRA, João Marcos Lyra | - |
| dc.date.accessioned | 2025-08-29T13:35:49Z | - |
| dc.date.available | 2025-08-29T13:35:49Z | - |
| dc.date.issued | 2025-08-05 | - |
| dc.date.submitted | 2025-08-08 | - |
| dc.identifier.citation | VIEIRA, João Marcos Lyra. Restauração automática de hierarquias em documentos corporativos: uma comparação entre métodos de vetorização e similaridade. 2025. Trabalho de Conclusão de Curso Ciência da Computação – Universidade Federal de Pernambuco, Recife, 2025. | pt_BR |
| dc.identifier.uri | https://repositorio.ufpe.br/handle/123456789/65586 | - |
| dc.description.abstract | O crescimento acelerado da documentação digital nas empresas tem aumentado significativamente o desafio de organizar e recuperar informações. Um exemplo comum dessa dificuldade é a perda das relações hierárquicas entre documentos corporativos devido à fragmentação do armazenamento em múltiplas bases de dados. Neste trabalho, investigou-se o problema da restauração automática das relações hierárquicas de pai–filho entre documentos corporativos, a partir de seus títulos e resumos. Inicialmente, implementou-se uma abordagem baseada em Bag of Words e similaridade de cosseno (limiar = 0,60), que apresentou alta precisão, porém baixa cobertura. Em seguida, conduziram-se experimentos comparativos envolvendo cinco técnicas de vetorização (TF-IDF, Word2Vec, FastText, SBert e OpenAI embeddings) combinadas com três métricas de similaridade (cosseno, distância euclidiana e Jaccard) sobre uma base de aproximadamente 9 000 artigos científicos. Os resultados mostram que os embeddings SBert com similaridade de cosseno alcançaram a maior média de Similaridade Temática (0,8619), seguidos pelos embeddings OpenAI (0,8537). A comparação com a versão inicial do projeto evidenciou que SBert duplicou ou triplicou a cobertura de pares pai–filho, mantendo mais de 85% de correspondência com os pares originais. Conclui-se que a combinação SBert + similaridade de cosseno oferece o melhor equilíbrio entre cobertura, consistência e custo, sendo recomendada para aplicações práticas. | pt_BR |
| dc.format.extent | 49p. | pt_BR |
| dc.language.iso | por | pt_BR |
| dc.rights | openAccess | pt_BR |
| dc.rights.uri | https://creativecommons.org/licenses/by-nc-nd/4.0/ | pt_BR |
| dc.subject | Restauração de documentos | pt_BR |
| dc.subject | SBert | pt_BR |
| dc.subject | Similaridade de cosseno | pt_BR |
| dc.subject | Embeddings | pt_BR |
| dc.title | Restauração automática de hierarquias em documentos corporativos: uma comparação entre métodos de vetorização e similaridade | pt_BR |
| dc.type | bachelorThesis | pt_BR |
| dc.degree.level | Graduacao | pt_BR |
| dc.contributor.advisorLattes | http://lattes.cnpq.br/7709859860474826 | pt_BR |
| dc.subject.cnpq | Áreas::Ciências Exatas e da Terra | pt_BR |
| dc.degree.departament | ::(CIN-DCC) - Departamento de Ciência da Computação | pt_BR |
| dc.degree.graduation | ::CIn-Curso de Ciência da Computação | pt_BR |
| dc.degree.grantor | Universidade Federal de Pernambuco | pt_BR |
| dc.degree.local | Recife | pt_BR |
| Appears in Collections: | (TCC) - Ciência da Computação | |
Files in This Item:
| File | Description | Size | Format | |
|---|---|---|---|---|
| TCC Joao Marcos Lyra Vieira.pdf | 411.93 kB | Adobe PDF | ![]() View/Open |
This item is protected by original copyright |
This item is licensed under a Creative Commons License

