Por favor, use este identificador para citar o enlazar este ítem:
https://repositorio.ufpe.br/handle/123456789/38109
Comparte esta pagina
Registro completo de metadatos
Campo DC | Valor | Lengua/Idioma |
---|---|---|
dc.contributor.advisor | CAVALCANTI, George Darmiton da Cunha | - |
dc.contributor.author | SOUSA, Woshington Valdeci de | - |
dc.date.accessioned | 2020-09-25T23:52:42Z | - |
dc.date.available | 2020-09-25T23:52:42Z | - |
dc.date.issued | 2020-06-02 | - |
dc.identifier.citation | SOUSA, Woshington Valdeci de. Detecção de hate speech usando combinação de classificadores. 2020. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de Pernambuco, Recife, 2020. | pt_BR |
dc.identifier.uri | https://repositorio.ufpe.br/handle/123456789/38109 | - |
dc.description.abstract | A popularização da internet e o crescimento das mídias sociais, mudaram a perspectiva geral de socialização nos últimos anos, tornando-se um meio de comunicação em massa com pouco controle sobre o conteúdo disseminado em suas plataformas. Além disso, o anonimato e a mobilidade alçaram as mídias sociais, como um importante canal disseminador de discursos de ódio. Esse tipo de discurso tornou-se um problema de escala mundial, causando preocupações em diversos países e organizações. Apesar dos grandes investimentos de empresas como Facebook, Twitter e Youtube, as atividades de controle ainda consistem em moderação manual, tornando o processo inescalável. Um grande número de pesquisas em aprendizagem de máquina, focam na detecção de discursos de ódio em redes sociais, utilizando a classificação monolítica. No entanto, é importante destacar que essa abordagem clássica, geralmente tem sua eficiência limitada no fato que um único classificador é responsável pela generalização do problema. Os sistemas de múltiplos classificadores, buscam combinar um conjunto de classificadores com comportamentos de classificação distintos para superar os resultados individuais dos mesmos. No entanto, selecionar classificadores com comportamentos diversificados, é uma tarefa complexa. Este trabalho propõe uma abordagem de seleção de classificadores baseada em uma exploração visual 2D, criada a partir da redução de dimensionalidade da matriz de dissimilaridade entre todos os classificadores, que é gerada utilizando o coeficiente double-fault measure. Para avaliar o método, inicialmente, foi construído um conjunto com 8 algoritmos de aprendizagem distintos, treinados com 5 métodos extratores, perfazendo um total de 40 classificadores, que tiveram seus desempenhos avaliados pelas métricas acurácia e macro f1-score. Em seguida, foi aplicada a proposta deste trabalho, para selecionar um grupo de classificadores que apresentavam comportamentos complementares e outro com comportamento mais semelhante, para então avaliar o desempenho destes grupos com técnicas de combinação. Este método foi aplicado em três bases de dados, duas delas (TD e ZW) foram coletadas do Twitter e uma (TD+ZW) construída com a junção das outras duas. Nas três bases foram realizados procedimentos de classificação com múltiplas classes, em TD e TD+ZW o objetivo era identificar o padrão como hate, offensive e non-offensive e em ZW classificar os padrões em racism, sexism e none. O método proposto obteve os melhores resultados em duas das bases avaliadas quando comparado a resultados da literatura. | pt_BR |
dc.language.iso | por | pt_BR |
dc.publisher | Universidade Federal de Pernambuco | pt_BR |
dc.rights | openAccess | pt_BR |
dc.rights | Attribution-NonCommercial-NoDerivs 3.0 Brazil | * |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/3.0/br/ | * |
dc.subject | Inteligência computacional | pt_BR |
dc.subject | Combinação de classificadores | pt_BR |
dc.title | Detecção de hate speech usando combinação de classificadores | pt_BR |
dc.type | masterThesis | pt_BR |
dc.contributor.authorLattes | http://lattes.cnpq.br/0948747826175550 | pt_BR |
dc.publisher.initials | UFPE | pt_BR |
dc.publisher.country | Brasil | pt_BR |
dc.degree.level | mestrado | pt_BR |
dc.contributor.advisorLattes | http://lattes.cnpq.br/8577312109146354 | pt_BR |
dc.publisher.program | Programa de Pos Graduacao em Ciencia da Computacao | pt_BR |
dc.description.abstractx | The popularization of the internet and the growth of social media have changed the general perspective of socialization in recent years, becoming a means of mass communication with little control over the content disseminated on their platforms. In addition, anonymity and mobility have raised social media as an important channel for disseminating hate speech. This type of discourse has become a worldwide problem, causing concern in several countries and organizations. Despite large investments by companies such as Facebook, Twitter and Youtube, control activities still consist of manual moderation, making the process inescalable. A large number of researches on machine learning focus on detecting hate speech on social networks, using the monolithic classification. However, it is important to note that this classic approach generally has limited efficiency in the fact that a single classifier is responsible for generalizing the problem. Multiple classifier systems seek to combine a set of classifiers with different classification behaviors to overcome their individual results. However, selecting classifiers with diverse behaviors is a complex task. This work proposes a classifier selection approach based on a 2D visual exploration, created from the reduction of the dimensionality of the dissimilarity matrix among all classifiers, which is generated using the double-fault measure coefficient. To evaluate the method, initially, a set was built with 8 distinct learning algorithms, trained with 5 extraction methods, making a total of 40 classifiers, whose performance was evaluated by the metrics accuracy and macro f1-score. Then, the proposal of this work was applied, to select a group of classifiers that presented complementary behaviors and another one with more similar behavior, to then evaluate the performance of these groups with combination techniques. This method was applied in three databases, two of them (TD and ZW) were collected from Twitter and one (TD + ZW) built with the combination of the other two. Classification procedures with multiple classes were carried out in the three bases, in TD and TD + ZW the objective was to identify the pattern as hate, offensive and non-offensive and in ZW to classify the patterns in racism, sexism and none. The proposed method obtained the best results in two of the bases evaluated when compared to results in the literature. | pt_BR |
Aparece en las colecciones: | Dissertações de Mestrado Profissional - Ciência da Computação |
Ficheros en este ítem:
Fichero | Descripción | Tamaño | Formato | |
---|---|---|---|---|
DISSERTAÇÃO Woshington Valdeci de Sousa.pdf | 4,94 MB | Adobe PDF | ![]() Visualizar/Abrir |
Este ítem está protegido por copyright original |
Este ítem está sujeto a una licencia Creative Commons Licencia Creative Commons