Multi-head attention classifier trained on protein-level for detecting viruses infecting cassava from RNA-seq reads

SILVA, Elisson Lima Gomes da

Por favor, use este identificador para citar o enlazar este ítem: https://repositorio.ufpe.br/handle/123456789/62504

Comparte esta pagina

Registro completo de metadatos

Campo DC	Valor	Lengua/Idioma
dc.contributor.advisor	BLAWID, Stefan Michael	-
dc.contributor.author	SILVA, Elisson Lima Gomes da	-
dc.date.accessioned	2025-04-23T17:06:39Z	-
dc.date.available	2025-04-23T17:06:39Z	-
dc.date.issued	2024-09-13	-
dc.identifier.citation	SILVA, Elisson Lima Gomes da. Multi-head attention classifier trained on protein-level for detecting viruses infecting cassava from RNA-seq reads. 2024. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de Pernambuco, Recife, 2024.	pt_BR
dc.identifier.uri	https://repositorio.ufpe.br/handle/123456789/62504	-
dc.description.abstract	This work applies artificial neural networks for classifying reads from high-throughput sequencing (HTS) data, with a particular focus on detecting plant viruses in cassava (Manihot esculenta). Viral diseases pose significant threats to crop health and food production, and cassava, a crucial crop for food security and industrial applications in Brazil and globally is no exception. Traditional bioinformatics pipelines for virus discov- ery primarily rely on alignment-based methods, which become increasingly computa- tionally expensive as the volume of genomic reference data grows. Alignment-free (AF) methodologies, especially those based on k-mer analysis, offer a promising alternative but often face challenges related to interpretability and memory demands. To address these challenges, we propose a multi-headed attention classifier model designed to detect viral presence in RNA sequencing data obtained from plant sam- ples and translated to the protein level. This model, trained for a specific host plant, leverages the attention mechanism to enhance feature extraction from k-mer distri- butions. This approach enables a more context-dependent encoding of sequencing reads, thereby improving the classification of the short genetic sequences typical of HTS data. Additionally, we implemented a cutting-edge phytosanitary pipeline on the Amazon Web Services Cloud to evaluate the performance of our proposed model. The model achieved 99% accuracy during training, effectively filtering out millions of reads from the host and other organisms, and retaining only viral reads. This sub- stantial reduction in computational demand for identifying new viruses underscores the efficiency of our approach. Our findings demonstrate that deep learning models, partic- ularly those employing the attention mechanism, can efficiently classify viral sequences in short reads, significantly lowering the computational costs associated with traditional AF methods. This work advances genetic analysis and bioinformatics, providing a more accurate and efficient method for classifying HTS reads in plant pathogen discovery.	pt_BR
dc.language.iso	eng	pt_BR
dc.publisher	Universidade Federal de Pernambuco	pt_BR
dc.rights	openAccess	pt_BR
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/br/	*
dc.subject	Detecção de vírus	pt_BR
dc.subject	Dados de RNA-seq	pt_BR
dc.subject	Classificação de leituras de sequenciamento	pt_BR
dc.subject	Aprendizado profundo	pt_BR
dc.subject	Métodos livres de alinhamento	pt_BR
dc.title	Multi-head attention classifier trained on protein-level for detecting viruses infecting cassava from RNA-seq reads	pt_BR
dc.type	masterThesis	pt_BR
dc.contributor.authorLattes	http://lattes.cnpq.br/2240319003744287	pt_BR
dc.publisher.initials	UFPE	pt_BR
dc.publisher.country	Brasil	pt_BR
dc.degree.level	mestrado	pt_BR
dc.contributor.advisorLattes	http://lattes.cnpq.br/3740757562716147	pt_BR
dc.publisher.program	Programa de Pos Graduacao em Ciencia da Computacao	pt_BR
dc.description.abstractx	Este estudo aplica redes neurais artificiais para classificar leituras de dados de sequenciamento de alto rendimento (HTS), com foco específico na detecção de vírus em plantas de mandioca (Manihot esculenta). Doenças virais representam ameaças significativas à saúde das culturas e à produção de alimentos, e a mandioca, uma cultura crucial para a segurança alimentar e aplicações industriais no Brasil e global- mente, não é exceção. As pipelines tradicionais de bioinformática para a descoberta de vírus baseiam-se principalmente em métodos de alinhamento, que se tornam cada vez mais caros em termos computacionais à medida que o volume de dados genômi- cos de referência cresce. Metodologias sem alinhamento (AF), especialmente aque- las baseadas na análise de k-mers, oferecem uma alternativa promissora, mas muitas vezes enfrentam desafios relacionados à interpretabilidade e à demanda por memória. Para enfrentar esses desafios, propomos um modelo de classificador de atenção multi-head projetado para detectar infecções virais em dados de sequenciamento de RNA obtidos de amostras de plantas e traduzido para o nível proteico. Este modelo, treinado para uma planta hospedeira específica, aproveita o mecanismo de atenção para melhorar a extração de características das distribuições de k-mers. Essa abor- dagem permite uma codificação mais dependente do contexto das leituras de sequen- ciamento, melhorando a classificação das sequências genéticas curtas típicas dos da- dos de HTS. Além disso, implementamos uma pipeline fitossanitária de última geração na cloud da Amazon Web Services para avaliar o desempenho do modelo proposto. O modelo alcançou 99% de precisão durante o treinamento, filtrando efetivamente milhões de leituras do hospedeiro e de outros organismos, retendo apenas leituras virais. Essa redução substancial na demanda computacional para a identificação de novos vírus destaca a eficiência da nossa abordagem. Nossos resultados demonstram que modelos de deep learning, particularmente aqueles que empregam o mecanismo de atenção, podem classificar eficientemente sequências virais em leituras curtas, re- duzindo significativamente os custos computacionais associados aos métodos tradi- cionais de AF. Este trabalho avança na análise genética e na bioinformática, ofere- cendo um método mais preciso e eficiente para a classificação de leituras de HTS na descoberta de patógenos em plantas.	pt_BR
Aparece en las colecciones:	Dissertações de Mestrado - Ciência da Computação

Ficheros en este ítem:

Fichero	Descripción	Tamaño	Formato
DISSERTAÇÃO Elisson Lima Gomes da Silva.pdf		11.59 MB	Adobe PDF	Visualizar/Abrir

Este ítem está protegido por copyright original

Visualizar la licencia

Mostrar el registro sencillo del ítem Recomiende este ítem

Este ítem está sujeto a una licencia Creative Commons Licencia Creative Commons