Skip navigation
Por favor, use este identificador para citar o enlazar este ítem: https://repositorio.ufpe.br/handle/123456789/38109

Comparte esta pagina

Registro completo de metadatos
Campo DC Valor Lengua/Idioma
dc.contributor.advisorCAVALCANTI, George Darmiton da Cunha-
dc.contributor.authorSOUSA, Woshington Valdeci de-
dc.date.accessioned2020-09-25T23:52:42Z-
dc.date.available2020-09-25T23:52:42Z-
dc.date.issued2020-06-02-
dc.identifier.citationSOUSA, Woshington Valdeci de. Detecção de hate speech usando combinação de classificadores. 2020. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de Pernambuco, Recife, 2020.pt_BR
dc.identifier.urihttps://repositorio.ufpe.br/handle/123456789/38109-
dc.description.abstractA popularização da internet e o crescimento das mídias sociais, mudaram a perspectiva geral de socialização nos últimos anos, tornando-se um meio de comunicação em massa com pouco controle sobre o conteúdo disseminado em suas plataformas. Além disso, o anonimato e a mobilidade alçaram as mídias sociais, como um importante canal disseminador de discursos de ódio. Esse tipo de discurso tornou-se um problema de escala mundial, causando preocupações em diversos países e organizações. Apesar dos grandes investimentos de empresas como Facebook, Twitter e Youtube, as atividades de controle ainda consistem em moderação manual, tornando o processo inescalável. Um grande número de pesquisas em aprendizagem de máquina, focam na detecção de discursos de ódio em redes sociais, utilizando a classificação monolítica. No entanto, é importante destacar que essa abordagem clássica, geralmente tem sua eficiência limitada no fato que um único classificador é responsável pela generalização do problema. Os sistemas de múltiplos classificadores, buscam combinar um conjunto de classificadores com comportamentos de classificação distintos para superar os resultados individuais dos mesmos. No entanto, selecionar classificadores com comportamentos diversificados, é uma tarefa complexa. Este trabalho propõe uma abordagem de seleção de classificadores baseada em uma exploração visual 2D, criada a partir da redução de dimensionalidade da matriz de dissimilaridade entre todos os classificadores, que é gerada utilizando o coeficiente double-fault measure. Para avaliar o método, inicialmente, foi construído um conjunto com 8 algoritmos de aprendizagem distintos, treinados com 5 métodos extratores, perfazendo um total de 40 classificadores, que tiveram seus desempenhos avaliados pelas métricas acurácia e macro f1-score. Em seguida, foi aplicada a proposta deste trabalho, para selecionar um grupo de classificadores que apresentavam comportamentos complementares e outro com comportamento mais semelhante, para então avaliar o desempenho destes grupos com técnicas de combinação. Este método foi aplicado em três bases de dados, duas delas (TD e ZW) foram coletadas do Twitter e uma (TD+ZW) construída com a junção das outras duas. Nas três bases foram realizados procedimentos de classificação com múltiplas classes, em TD e TD+ZW o objetivo era identificar o padrão como hate, offensive e non-offensive e em ZW classificar os padrões em racism, sexism e none. O método proposto obteve os melhores resultados em duas das bases avaliadas quando comparado a resultados da literatura.pt_BR
dc.language.isoporpt_BR
dc.publisherUniversidade Federal de Pernambucopt_BR
dc.rightsopenAccesspt_BR
dc.rightsAttribution-NonCommercial-NoDerivs 3.0 Brazil*
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/br/*
dc.subjectInteligência computacionalpt_BR
dc.subjectCombinação de classificadorespt_BR
dc.titleDetecção de hate speech usando combinação de classificadorespt_BR
dc.typemasterThesispt_BR
dc.contributor.authorLatteshttp://lattes.cnpq.br/0948747826175550pt_BR
dc.publisher.initialsUFPEpt_BR
dc.publisher.countryBrasilpt_BR
dc.degree.levelmestradopt_BR
dc.contributor.advisorLatteshttp://lattes.cnpq.br/8577312109146354pt_BR
dc.publisher.programPrograma de Pos Graduacao em Ciencia da Computacaopt_BR
dc.description.abstractxThe popularization of the internet and the growth of social media have changed the general perspective of socialization in recent years, becoming a means of mass communication with little control over the content disseminated on their platforms. In addition, anonymity and mobility have raised social media as an important channel for disseminating hate speech. This type of discourse has become a worldwide problem, causing concern in several countries and organizations. Despite large investments by companies such as Facebook, Twitter and Youtube, control activities still consist of manual moderation, making the process inescalable. A large number of researches on machine learning focus on detecting hate speech on social networks, using the monolithic classification. However, it is important to note that this classic approach generally has limited efficiency in the fact that a single classifier is responsible for generalizing the problem. Multiple classifier systems seek to combine a set of classifiers with different classification behaviors to overcome their individual results. However, selecting classifiers with diverse behaviors is a complex task. This work proposes a classifier selection approach based on a 2D visual exploration, created from the reduction of the dimensionality of the dissimilarity matrix among all classifiers, which is generated using the double-fault measure coefficient. To evaluate the method, initially, a set was built with 8 distinct learning algorithms, trained with 5 extraction methods, making a total of 40 classifiers, whose performance was evaluated by the metrics accuracy and macro f1-score. Then, the proposal of this work was applied, to select a group of classifiers that presented complementary behaviors and another one with more similar behavior, to then evaluate the performance of these groups with combination techniques. This method was applied in three databases, two of them (TD and ZW) were collected from Twitter and one (TD + ZW) built with the combination of the other two. Classification procedures with multiple classes were carried out in the three bases, in TD and TD + ZW the objective was to identify the pattern as hate, offensive and non-offensive and in ZW to classify the patterns in racism, sexism and none. The proposed method obtained the best results in two of the bases evaluated when compared to results in the literature.pt_BR
Aparece en las colecciones: Dissertações de Mestrado Profissional - Ciência da Computação

Ficheros en este ítem:
Fichero Descripción Tamaño Formato  
DISSERTAÇÃO Woshington Valdeci de Sousa.pdf4,94 MBAdobe PDFVista previa
Visualizar/Abrir


Este ítem está protegido por copyright original



Este ítem está sujeto a una licencia Creative Commons Licencia Creative Commons Creative Commons