Skip navigation
Por favor, use este identificador para citar o enlazar este ítem: https://repositorio.ufpe.br/handle/123456789/42036

Comparte esta pagina

Título : Estudo comparativo entre abordagens estilométricas e textuais para atribuição de autoria em trabalhos escolares
Autor : SANTOS, Daniel Cirne Vilas-Boas dos
Palabras clave : Inteligência computacional; Estilometria; Atribuição de autoria; Classificação de atividades pedagógicas
Fecha de publicación : 13-ago-2021
Editorial : Universidade Federal de Pernambuco
Citación : SANTOS, Daniel Cirne Vilas-Boas dos. Estudo comparativo entre abordagens estilométricas e textuais para atribuição de autoria em trabalhos escolares. 2021. Dissertação (Mestrado em Ciência da Computação) - Universidade Federal de Pernambuco, Recife, 2021.
Resumen : O aumento no volume de documentos digitais associado ao seu uso em várias áreas de conhecimento demandam recursos computacionais para sua compreensão e análise. Em casos de verificação ou atribuição de autoria, é necessário confirmar ou identificar os autores do texto. A literatura propõe promissoras abordagens que associam aprendizagem de máquina e processamento de linguagem natural para distinguir os autores pelo seu estilo de escrita. Estes trabalhos envolvem majoritariamente contextos literários ou jornalísticos e textos em inglês. Por outro lado, no contexto educacional, poucos trabalhos exploram a análise de autoria como ferramenta de apoio durante a verificação de aprendizagem, especialmente na língua portuguesa. Tal cenário é desafiador, pois apresenta um baixo volume de documentos por autor, um conjunto de autores com estilo de escrita homogêneo e restrições de formato, tema e idioma. Este trabalho explora técnicas e abordagens reconhecidas na literatura, como modelos de aprendizagem de máquina, técnicas para representação de documentos e extração de características estilométricas, com propósito de apoiar a análise de autoria em uma base de dados composta por atividades pedagógicas de estudantes de graduação. Devido ao baixo volume de exemplos, utilizamos bases de dados jornalísticas mais robustas como referência. Por meio dos experimentos, foi verificado que em domínios restritos, representações baseadas em características de estilo são superiores às abordagens meramente textuais, que sofrem maior influência do tópico em corpora mais abrangentes. Este trabalho revelou que o modelo Extremelly Randomized Trees foi superior na atribuição de autoria aos demais modelos, (como Naive Bayes, SVM, Random Forest, Regressão logística e Redes neurais) em todas as bases utilizadas, alcançando uma média de 70% de taxa de acerto e AUC 0,81. Além disso, o trabalho detalha sua metodologia para extração de características de estilo por meio do processamento de linguagem natural e quais destas mais se destacaram durante os experimentos de acordo com seus valores Shapley.
URI : https://repositorio.ufpe.br/handle/123456789/42036
Aparece en las colecciones: Dissertações de Mestrado - Ciência da Computação

Ficheros en este ítem:
Fichero Descripción Tamaño Formato  
DISSERTAÇÃO Daniel Cirne Vilas-Boas dos Santos.pdf12,34 MBAdobe PDFVista previa
Visualizar/Abrir


Este ítem está protegido por copyright original



Este ítem está sujeto a una licencia Creative Commons Licencia Creative Commons Creative Commons