Skip navigation
Please use this identifier to cite or link to this item: https://repositorio.ufpe.br/handle/123456789/65400

Share on

Full metadata record
DC FieldValueLanguage
dc.contributor.advisorZANCHETTIN, Cleber-
dc.contributor.authorAMORIM, Eduardo Alexandre de-
dc.date.accessioned2025-08-25T15:54:56Z-
dc.date.available2025-08-25T15:54:56Z-
dc.date.issued2025-08-05-
dc.date.submitted2025-08-21-
dc.identifier.citationAMORIM, Eduardo Alexandre de. SecBERT: aprimorando a segurança de LLMs em português via detecção de Jailbreak Prompts. 2025. Trabalho de Conclusão de Curso(Ciência da computação) - Universidade Federal de Pernambuco, Recife, 2025.pt_BR
dc.identifier.urihttps://repositorio.ufpe.br/handle/123456789/65400-
dc.description.abstractO crescimento dos Modelos de Linguagem de Grande Escala (LLMs) traz desafios à segurança, sobretudo diante do uso de jailbreak prompts, instruções criadas para burlar salvaguardas. Embora o tema esteja em debate na literatura internacional, há escassez de soluções voltadas à língua portuguesa. Este trabalho propõe o SecBERT, um classifica- dor treinado para detectar jailbreaks em português. Para isso, adaptou-se o WildJailbreak Dataset via tradução automatizada, resultando em 29.432 exemplos rotulados em quatro categorias. Foram conduzidos alguns experimentos com modelos BERT (e.g. BERTim- bau, RoBERTa), testando diferentes estratégias de fine-tuning. Os resultados evidenciam que modelos ajustados ao idioma superam abordagens multilíngues ou generalistas. O SecBERT representa, portanto, um avanço na segurança de LLMs em português.pt_BR
dc.format.extent40p.pt_BR
dc.language.isoporpt_BR
dc.rightsopenAccesspt_BR
dc.rights.urihttps://creativecommons.org/licenses/by-nc-nd/4.0/pt_BR
dc.subjectSegurança em LLMspt_BR
dc.subjectJailbreak Promptspt_BR
dc.subjectPLNpt_BR
dc.subjectClassificação de Textopt_BR
dc.titleSecBERT: aprimorando a segurança de LLMs em português via detecção de Jailbreak Promptspt_BR
dc.typebachelorThesispt_BR
dc.contributor.authorLatteshttps://lattes.cnpq.br/8790662285088894pt_BR
dc.degree.levelGraduacaopt_BR
dc.contributor.advisorLatteshttp://lattes.cnpq.br/1244195230407619pt_BR
dc.description.abstractxThe rise of Large Language Models (LLMs) poses security challenges, especially in the face of jailbreak prompts—crafted instructions designed to bypass safeguards. While the topic is under discussion in the international literature, there is a lack of solutions tailored to the Portuguese language. This work proposes SecBERT, a classifier trained to detect jailbreaks in Portuguese. To this end, the WildJailbreak Dataset was adapted via auto- mated translation, resulting in 29,432 labeled examples across four categories. Several experiments were conducted using BERT-based models (e.g., BERTimbau, RoBERTa), testing different fine-tuning strategies. Results show that language-specific models out- perform multilingual or general-purpose approaches. SecBERT thus represents a step forward in securing LLMs in Portuguese.pt_BR
dc.subject.cnpqÁreas::Ciências Exatas e da Terra::Ciência da Computaçãopt_BR
dc.degree.departament::(CIN-DCC) - Departamento de Ciência da Computaçãopt_BR
dc.degree.graduation::CIn-Curso de Ciência da Computaçãopt_BR
dc.degree.grantorUniversidade Federal de Pernambucopt_BR
dc.degree.localRecifept_BR
dc.identifier.orcid0009-0003-3862-3246pt_BR
Appears in Collections:(TCC) - Ciência da Computação

Files in This Item:
File Description SizeFormat 
TCC Eduardo Alexandre de Amorim.pdf1.19 MBAdobe PDFThumbnail
View/Open


This item is protected by original copyright



This item is licensed under a Creative Commons License Creative Commons