Análise automatizada de discussões online baseada no framework de comunidade de investigação: classificação da presença cognitiva com técnicas de processamento de linguagem natural

ROLIM, Vitor Belarmino

Please use this identifier to cite or link to this item: https://repositorio.ufpe.br/handle/123456789/59934

Share on

Full metadata record

DC Field	Value	Language
dc.contributor.advisor	LINS, Rafael Dueire	-
dc.contributor.author	ROLIM, Vitor Belarmino	-
dc.date.accessioned	2025-01-22T13:50:13Z	-
dc.date.available	2025-01-22T13:50:13Z	-
dc.date.issued	2024-09-03	-
dc.identifier.citation	ROLIM, Vitor Belarmino. Análise automatizada de discussões online baseada no framework de comunidade de investigação: classificação da presença cognitiva com técnicas de processamento de linguagem natural. 2024. Tese (Doutorado em Ciência da Computação) – Universidade Federal de Pernambuco, Recife, 2024.	pt_BR
dc.identifier.uri	https://repositorio.ufpe.br/handle/123456789/59934	-
dc.description.abstract	Com o estabelecimento do ensino a distância como modelo educacional, diversas fer- ramentas foram desenvolvidas com o objetivo de proporcionar uma experiência de ensino semelhante à do ensino presencial. Entre essas ferramentas, destacam-se os fóruns de discus- são, que oferecem aos alunos um ambiente para construção de conhecimento. Técnicas de aprendizagem de máquina vêm sendo empregadas para fornecer classificações dos níveis de desenvolvimento cognitivo dos alunos, baseadas nas interações ocorridas nos fóruns educacio- nais. A criação desses classificadores depende de diversos aspectos para aumentar a acurácia dos modelos treinados; contudo, esses modelos são altamente dependentes da quantidade e qualidade dos dados. A anotação desses dados é um trabalho intensivo que depende de espe- cialistas de domínio e, além disso, há uma escassez de dados devido à dificuldade de aquisição de dados educacionais. Este trabalho investiga a aplicação de técnicas de aprendizagem de máquina para a análise automatizada de discussões online em AVAs, utilizando o modelo CoI. Explora-se a viabilidade de métodos automáticos para a identificação da presença cognitiva em fóruns de discussão, visando entender e otimizar a construção de conhecimento em contex- tos educacionais à distância. Foram utilizados diferentes modelos de aprendizado de máquina, incluindo Random Forest, XGBoost, MLP, além de abordagens de aumento de dados com BERT e GPT-4 para lidar com o desbalanceamento das categorias da presença cognitiva. As características textuais foram extraídas utilizando ferramentas como LIWC, Coh-Metrix e SNA, proporcionando uma representação abrangente das interações e conteúdos discutidos, além de modelos de linguagem focados em codificação, como o DeBERTa. Os resultados mostram que a combinação de técnicas de aprendizado ativo tem grande potencial para o problema abor- dado, considerando a limitação de dados na área educacional, especialmente em relação aos dados anotados. Conseguimos atingir um coeficiente de Cohen’s Kappa de 0.43 e uma acurácia de 0.60 com aprendizado ativo utilizando Random Forest sem aumentação de dados e 0.42 e 0.62 de Cohen’s Kappa e acurácia respectivamente ao utilizar modelos de linguagem para classificação e aumentação dos dados. Esta pesquisa contribui para o avanço das metodologias de análise automatizada em ambientes de aprendizagem online, abrindo possibilidades para a utilização das técnicas desenvolvidas no monitoramento e apoio ao desenvolvimento cognitivo dos alunos, promovendo uma melhor experiência de aprendizagem no ensino à distância.	pt_BR
dc.language.iso	por	pt_BR
dc.publisher	Universidade Federal de Pernambuco	pt_BR
dc.rights	openAccess	pt_BR
dc.rights	Attribution-NonCommercial-NoDerivs 3.0 Brazil	*
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/br/	*
dc.subject	Comunidade de investigação	pt_BR
dc.subject	Fóruns de discussão	pt_BR
dc.subject	Presença cognitiva	pt_BR
dc.subject	Analíticas de aprendizagem	pt_BR
dc.subject	Processamento de linguagem natural	pt_BR
dc.subject	Aprendizado ativo	pt_BR
dc.title	Análise automatizada de discussões online baseada no framework de comunidade de investigação: classificação da presença cognitiva com técnicas de processamento de linguagem natural	pt_BR
dc.type	doctoralThesis	pt_BR
dc.contributor.advisor-co	MELLO, Rafael Ferreira Leite de	-
dc.contributor.authorLattes	http://lattes.cnpq.br/8727432934866593	pt_BR
dc.publisher.initials	UFPE	pt_BR
dc.publisher.country	Brasil	pt_BR
dc.degree.level	doutorado	pt_BR
dc.contributor.advisorLattes	http://lattes.cnpq.br/7601016626256808	pt_BR
dc.publisher.program	Programa de Pos Graduacao em Ciencia da Computacao	pt_BR
dc.description.abstractx	With the establishment of distance learning as an educational model, various tools have been developed to provide an experience similar to that of in-person education. Among these tools, discussion forums stand out, offering students an environment for knowledge construc- tion, social interaction, and information sharing. Machine learning techniques have also been employed to provide classifications of students’ social and cognitive development levels based on their interactions in educational forums. The creation of these classifiers depends on vari- ous aspects (features) to increase the accuracy of the trained models; however, these models are highly dependent on the quantity and quality of the annotated data in the training set. Annotating this data is a labor-intensive task that relies on several domain experts, and there is also a scarcity of data due to the difficulty of large-scale acquisition of educational data. This work investigates the application of machine learning techniques for the automated anal- ysis of online discussions in virtual learning environments, using the Community of Inquiry (CoI) model. It explores the feasibility of automatic methods for identifying cognitive presence in discussion forums, aiming to understand and optimize knowledge construction in distance education contexts. Different machine learning models were used, including Random Forest, XGBoost, and MLP, along with data augmentation approaches using BERT and GPT-4 to address the imbalance in cognitive presence categories. Textual features were extracted using tools like LIWC, Coh-Metrix, and social network analysis (SNA), providing a comprehensive representation of the interactions and content discussed, along with language models focused on encoding, such as DeBERTa. The results show that the combination of active learning techniques has great potential for the addressed problem, considering the limitation of data in the educational field, especially regarding annotated data. We achieved a Cohen’s Kappa coefficient of 0.43 and an accuracy of 0.60 with active learning using Random Forest without data augmentation, and 0.42 and 0.62 of Cohen’s Kappa and accuracy, respectively, when us- ing language models for classification and data augmentation. This research contributes to the advancement of automated analysis methodologies in online learning environments, opening possibilities for the use of the developed techniques in monitoring and supporting students’ cognitive development, promoting a better learning experience in distance education.	pt_BR
dc.contributor.advisor-coLattes	http://lattes.cnpq.br/6190254569597745	pt_BR
Appears in Collections:	Teses de Doutorado - Ciência da Computação

Files in This Item:

File	Description	Size	Format
TESE Vitor Belarmino Rolim.pdf		2.03 MB	Adobe PDF	View/Open

This item is protected by original copyright

View License

Show simple item record Recommend this item

This item is licensed under a Creative Commons License