Detecção de posicionamento em tweets sobre Covid-19 no Brasil utilizando métodos de aprendizagem de máquina

OLIVEIRA, Rodrigo Ludermir de

Please use this identifier to cite or link to this item: https://repositorio.ufpe.br/handle/123456789/52699

Share on

Title:	Detecção de posicionamento em tweets sobre Covid-19 no Brasil utilizando métodos de aprendizagem de máquina
Authors:	OLIVEIRA, Rodrigo Ludermir de
Keywords:	Inteligência computacional; Detecção de posicionamento; Covid-19; Tweets; Aprendizado de máquina
Issue Date:	10-Mar-2022
Publisher:	Universidade Federal de Pernambuco
Citation:	OLIVEIRA, Rodrigo Ludermir de. Detecção de posicionamento em tweets sobre Covid-19 no Brasil utilizando métodos de aprendizagem de máquina. 2022. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de Pernambuco, Recife, 2022.
Abstract:	A onipresença da pandemia de Covid-19 durante os últimos dois anos acarretou na urgência de ações responsivas contra o avanço da contaminação do novo coronavírus e em estratégias de imunização da população, através de políticas de saúde pública e medidas sanitárias pre- ventivas por parte das autoridades responsáveis e também da sociedade civil. No Brasil, esse processo foi profundamente politizado, suscitando discussões polarizadas que inundaram as redes sociais com opiniões e posicionamentos acerca das medidas adotadas contra a Covid-19 e suas repercussões. Enquanto um paradigma emergente no campo de mineração de opiniões nas redes sociais, sistemas de detecção de posicionamento têm produzido resultados frutíferos, principalmente quando os objetos de classificação estão segmentados por um tópico alvo sobre o qual o posicionamento é realizado. Desse modo, esta dissertação investiga a utilização de métodos de aprendizagem de máquina no desenvolvimento de sistemas de detecção de posici- onamento em tweets - publicações na rede social Twitter - de usuários brasileiros comentando as medidas relacionadas à Covid-19, exercidas por eles próprios e pelo governo brasileiro em seus diferentes órgãos e níveis de atuação. O trabalho envolve três partes principais: (1) Cons- trução da base de dados, na qual houve o levantamento de mais de 6 milhões de tweets e retweets em português que mencionam palavras relacionadas à Covid-19 entre Janeiro de 2020 e Outubro de 2021, das quais mais de 350 mil tweets foram rotulados (pseudo-labels), através de métodos de anotação fraca (weak supervision), em “favoráveis” ou “contrários” às medidas do governo federal frente à pandemia. (2) Limpeza, análise exploratória e segmentação da base rotulada por tópicos mais relevantes e frequentes. (3) Avaliação de modelos de Aprendizagem de Máquina tradicionais e de aprendizagem profunda - sobretudo Transformers, na detecção de posicionamentos. Utilizando o modelo de linguagem de domínio geral em português-brasileiro BERTimbau, que segue a arquitetura base do BERT, foram realizados experimentos com: (1) adaptação de domínio, usando os dados não rotulados; (2) uso de dados relacionais dos usuários (rede de interações - retweets, mentions e replies); (3) Aprendizado via Multi-tasking, realizando o ajuste-fino em todos os tópicos ao mesmo tempo. Os experimentos realizados demonstraram que os modelos inicializados usando BERTimbau e treinados combinando as três abordagens citadas acima se sobressaem sobre os demais em seu desempenho diante da variedade de tópicos relacionados à Covid-19 no contexto brasileiro.
URI:	https://repositorio.ufpe.br/handle/123456789/52699
Appears in Collections:	Dissertações de Mestrado - Ciência da Computação

Files in This Item:

File	Description	Size	Format
DISSERTAÇÃO Rodrigo Ludermir de Oliveira.pdf		3.14 MB	Adobe PDF	View/Open

This item is protected by original copyright

View License

Show full item record Recommend this item

This item is licensed under a Creative Commons License