Métodos de amostragem em ambientes big data para o data profiling: fundamentos, desafios e aplicações

OLIVEIRA, Paulo Vitor Alves de

Please use this identifier to cite or link to this item: https://repositorio.ufpe.br/handle/123456789/65502

Share on

Full metadata record

DC Field	Value	Language
dc.contributor.advisor	FIDALGO, Robson do Nascimento	-
dc.contributor.author	OLIVEIRA, Paulo Vitor Alves de	-
dc.date.accessioned	2025-08-27T15:53:17Z	-
dc.date.available	2025-08-27T15:53:17Z	-
dc.date.issued	2025-07-31	-
dc.date.submitted	2025-08-24	-
dc.identifier.citation	OLIVEIRA, Paulo Vitor Alves de. Métodos de amostragem em ambientes big data para o data profiling: fundamentos, desafios e aplicações. 2025. Trabalho de Conclusão de Curso (Sistemas de Informação) - Universidade Federal de Pernambuco, Recife, 2025.	pt_BR
dc.identifier.uri	https://repositorio.ufpe.br/handle/123456789/65502	-
dc.description.abstract	O Big Data transformou-se em um pilar para a inovação e a tomada de decisão em múltiplos setores, contudo, a eficácia dessas decisões está intrinsecamente ligada à qualidade dos dados subjacentes, tornando a sua gestão um desafio de alta complexidade. A baixa qualidade dos dados pode levar a análises imprecisas, conclusões enganosas e, consequentemente, a perdas de confiança e valor. Neste cenário, o Data Profiling emergiu como um processo fundamental, atuando como uma linha de defesa e descoberta no âmbito da governança de dados e da garantia da qualidade. No entanto, o volume, a velocidade e a variedade dos dados em ambientes de Big Data tornam os métodos de perfilamento tradicionais ineficazes e computacionalmente caros. Para contornar essas limitações, as técnicas de amostragem emergem como uma solução crucial, permitindo a análise de subconjuntos representativos de dados para inferir características do conjunto total, reduzindo custos e acelerando o processamento sem comprometer significativamente a precisão. O presente trabalho constitui-se como uma Revisão Sistemática da Literatura (RSL) com o objetivo de consolidar e analisar o estado da arte sobre técnicas de amostragem em ambientes Big Data. Baseando-se em um corpus de 14 artigos científicos e publicações técnicas, esta revisão explora os fundamentos conceituais das técnicas de amostragem, detalhando suas definições, propósitos e vantagens de utilização. Por fim, a revisão conclui com uma síntese dos achados e propõe direções para pesquisas futuras, destacando a trajetória da amostragem em ambientes Big Data como uma técnica cada vez mais inteligente, escalável e consciente do contexto, indispensável para extrair valor confiável na era do Big Data, especialmente para o Data Profiling.	pt_BR
dc.format.extent	63p.	pt_BR
dc.language.iso	por	pt_BR
dc.rights	openAccess	pt_BR
dc.rights.uri	https://creativecommons.org/licenses/by-nc-nd/4.0/	pt_BR
dc.subject	Perfilamento de Dados	pt_BR
dc.subject	Big Data	pt_BR
dc.subject	Métodos de Amostragem	pt_BR
dc.subject	Qualidade de Dados	pt_BR
dc.subject	Revisão Sistemática da Literatura	pt_BR
dc.title	Métodos de amostragem em ambientes big data para o data profiling: fundamentos, desafios e aplicações	pt_BR
dc.type	bachelorThesis	pt_BR
dc.contributor.authorLattes	http://lattes.cnpq.br/0023626211673539	pt_BR
dc.degree.level	Graduacao	pt_BR
dc.contributor.advisorLattes	http://lattes.cnpq.br/6390018491925933	pt_BR
dc.description.abstractx	Big Data has become a foundational pillar for innovation and data-driven decision-making across various sectors. However, the effectiveness of such decisions is intrinsically linked to the quality of the underlying data, making data management a highly complex challenge. Low data quality can result in inaccurate analyses, misleading conclusions, and consequently, loss of trust and value. In this context, data profiling emerges as a fundamental process, serving both as a diagnostic and discovery tool within data governance and quality assurance frameworks. Nonetheless, the volume, velocity, and variety of data in Big Data environments render traditional profiling methods inefficient and computationally expensive. Sampling techniques offer a critical solution to this limitation by enabling the analysis of representative data subsets. These techniques reduce processing time and costs while maintaining acceptable levels of accuracy, particularly in large-scale scenarios. This study presents a Systematic Literature Review (SLR) that consolidates and analyzes the state of the art in sampling techniques for Big Data environments. Based on a corpus of 14 peer-reviewed scientific and technical publications, the review explores the conceptual foundations of sampling, outlining its definitions, purposes, and advantages. The work concludes with a synthesis of key findings and proposes directions for future research, emphasizing the role of sampling as an increasingly intelligent, scalable, and context-aware technique—one that is indispensable for extracting trustworthy insights from Big Data, particularly in data profiling tasks.	pt_BR
dc.subject.cnpq	Áreas::Ciências Exatas e da Terra::Ciência da Computação	pt_BR
dc.degree.departament	::(CIN-DSC) - Departamento de Sistemas da Computação	pt_BR
dc.degree.graduation	::CIn-Curso de Sistemas de Informação	pt_BR
dc.degree.grantor	Universidade Federal de Pernambuco	pt_BR
dc.degree.local	Recife	pt_BR
Appears in Collections:	(TCC) - Sistemas da Computação

Files in This Item:

File	Description	Size	Format
TCC Paulo Vitor Alves de Oliveira.pdf		1.74 MB	Adobe PDF	View/Open

This item is protected by original copyright

View License

Show simple item record Recommend this item

This item is licensed under a Creative Commons License