Detecção de hate speech usando combinação de classificadores

SOUSA, Woshington Valdeci de

Please use this identifier to cite or link to this item: https://repositorio.ufpe.br/handle/123456789/38109

Share on

Full metadata record

DC Field	Value	Language
dc.contributor.advisor	CAVALCANTI, George Darmiton da Cunha	-
dc.contributor.author	SOUSA, Woshington Valdeci de	-
dc.date.accessioned	2020-09-25T23:52:42Z	-
dc.date.available	2020-09-25T23:52:42Z	-
dc.date.issued	2020-06-02	-
dc.identifier.citation	SOUSA, Woshington Valdeci de. Detecção de hate speech usando combinação de classificadores. 2020. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de Pernambuco, Recife, 2020.	pt_BR
dc.identifier.uri	https://repositorio.ufpe.br/handle/123456789/38109	-
dc.description.abstract	A popularização da internet e o crescimento das mídias sociais, mudaram a perspectiva geral de socialização nos últimos anos, tornando-se um meio de comunicação em massa com pouco controle sobre o conteúdo disseminado em suas plataformas. Além disso, o anonimato e a mobilidade alçaram as mídias sociais, como um importante canal disseminador de discursos de ódio. Esse tipo de discurso tornou-se um problema de escala mundial, causando preocupações em diversos países e organizações. Apesar dos grandes investimentos de empresas como Facebook, Twitter e Youtube, as atividades de controle ainda consistem em moderação manual, tornando o processo inescalável. Um grande número de pesquisas em aprendizagem de máquina, focam na detecção de discursos de ódio em redes sociais, utilizando a classificação monolítica. No entanto, é importante destacar que essa abordagem clássica, geralmente tem sua eficiência limitada no fato que um único classificador é responsável pela generalização do problema. Os sistemas de múltiplos classificadores, buscam combinar um conjunto de classificadores com comportamentos de classificação distintos para superar os resultados individuais dos mesmos. No entanto, selecionar classificadores com comportamentos diversificados, é uma tarefa complexa. Este trabalho propõe uma abordagem de seleção de classificadores baseada em uma exploração visual 2D, criada a partir da redução de dimensionalidade da matriz de dissimilaridade entre todos os classificadores, que é gerada utilizando o coeficiente double-fault measure. Para avaliar o método, inicialmente, foi construído um conjunto com 8 algoritmos de aprendizagem distintos, treinados com 5 métodos extratores, perfazendo um total de 40 classificadores, que tiveram seus desempenhos avaliados pelas métricas acurácia e macro f1-score. Em seguida, foi aplicada a proposta deste trabalho, para selecionar um grupo de classificadores que apresentavam comportamentos complementares e outro com comportamento mais semelhante, para então avaliar o desempenho destes grupos com técnicas de combinação. Este método foi aplicado em três bases de dados, duas delas (TD e ZW) foram coletadas do Twitter e uma (TD+ZW) construída com a junção das outras duas. Nas três bases foram realizados procedimentos de classificação com múltiplas classes, em TD e TD+ZW o objetivo era identificar o padrão como hate, offensive e non-offensive e em ZW classificar os padrões em racism, sexism e none. O método proposto obteve os melhores resultados em duas das bases avaliadas quando comparado a resultados da literatura.	pt_BR
dc.language.iso	por	pt_BR
dc.publisher	Universidade Federal de Pernambuco	pt_BR
dc.rights	openAccess	pt_BR
dc.rights	Attribution-NonCommercial-NoDerivs 3.0 Brazil	*
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/br/	*
dc.subject	Inteligência computacional	pt_BR
dc.subject	Combinação de classificadores	pt_BR
dc.title	Detecção de hate speech usando combinação de classificadores	pt_BR
dc.type	masterThesis	pt_BR
dc.contributor.authorLattes	http://lattes.cnpq.br/0948747826175550	pt_BR
dc.publisher.initials	UFPE	pt_BR
dc.publisher.country	Brasil	pt_BR
dc.degree.level	mestrado	pt_BR
dc.contributor.advisorLattes	http://lattes.cnpq.br/8577312109146354	pt_BR
dc.publisher.program	Programa de Pos Graduacao em Ciencia da Computacao	pt_BR
dc.description.abstractx	The popularization of the internet and the growth of social media have changed the general perspective of socialization in recent years, becoming a means of mass communication with little control over the content disseminated on their platforms. In addition, anonymity and mobility have raised social media as an important channel for disseminating hate speech. This type of discourse has become a worldwide problem, causing concern in several countries and organizations. Despite large investments by companies such as Facebook, Twitter and Youtube, control activities still consist of manual moderation, making the process inescalable. A large number of researches on machine learning focus on detecting hate speech on social networks, using the monolithic classification. However, it is important to note that this classic approach generally has limited efficiency in the fact that a single classifier is responsible for generalizing the problem. Multiple classifier systems seek to combine a set of classifiers with different classification behaviors to overcome their individual results. However, selecting classifiers with diverse behaviors is a complex task. This work proposes a classifier selection approach based on a 2D visual exploration, created from the reduction of the dimensionality of the dissimilarity matrix among all classifiers, which is generated using the double-fault measure coefficient. To evaluate the method, initially, a set was built with 8 distinct learning algorithms, trained with 5 extraction methods, making a total of 40 classifiers, whose performance was evaluated by the metrics accuracy and macro f1-score. Then, the proposal of this work was applied, to select a group of classifiers that presented complementary behaviors and another one with more similar behavior, to then evaluate the performance of these groups with combination techniques. This method was applied in three databases, two of them (TD and ZW) were collected from Twitter and one (TD + ZW) built with the combination of the other two. Classification procedures with multiple classes were carried out in the three bases, in TD and TD + ZW the objective was to identify the pattern as hate, offensive and non-offensive and in ZW to classify the patterns in racism, sexism and none. The proposed method obtained the best results in two of the bases evaluated when compared to results in the literature.	pt_BR
Appears in Collections:	Dissertações de Mestrado Profissional - Ciência da Computação

Files in This Item:

File	Description	Size	Format
DISSERTAÇÃO Woshington Valdeci de Sousa.pdf		4.94 MB	Adobe PDF	View/Open

This item is protected by original copyright

View License

Show simple item record Recommend this item

This item is licensed under a Creative Commons License