Providing Projective and Affine Invariance for Recognition by Multi-Angle-Scale Vision Transformer

CHARAMBA, Luiz Gustavo da Rocha

Please use this identifier to cite or link to this item: https://repositorio.ufpe.br/handle/123456789/67307

Share on

Full metadata record

DC Field	Value	Language
dc.contributor.advisor	MELO, Silvio de Barros	-
dc.contributor.author	CHARAMBA, Luiz Gustavo da Rocha	-
dc.date.accessioned	2025-12-19T14:13:52Z	-
dc.date.available	2025-12-19T14:13:52Z	-
dc.date.issued	2025-08-28	-
dc.identifier.citation	CHARAMBA, Luiz Gustavo da Rocha. Providing Projective and Affine Invariance for Recognition by Multi-Angle-Scale Vision Transformer. 2025. Tese (Doutorado em Ciência da Computação) - Universidade Federal de Pernambuco, Recife, 2025.	pt_BR
dc.identifier.uri	https://repositorio.ufpe.br/handle/123456789/67307	-
dc.description.abstract	The recognition of deformed planar shapes finds applications in many unrelated areas, such as marketing, OCR, and autonomous vehicles. An enormous effort has been devoted to this in the literature, based on direct geometric approaches, although with limited results or performance. More recently, many machine learning approaches have been pro posed with satisfactory results only when the deformation is a weak affine at best. This thesis introduces the Multi-Angle-Scale Vision Transformer, MASViT, a deep-learning based solution that outperforms state of the art methods in the recognition of affinely and projectively deformed images. A crucial point in our setting is the absence of deformed images during training phase. Our approach employs 1D convolutional filters correspond ing to straight lines crossing the shape in the polar domain, preserving collinearity, a basic projective invariant. Angular sequences deriving from the polar domain integrate well with the Vision Transformer (ViT) architecture, as these patch embeddings are geometrically coherent, enhancing suitability for the transformer encoder. We also introduce several reg ularization techniques to boost the generalizability of model. To validate the approach, we curated new test datasets derived from the German Traffic Sign Recognition Benchmark (GTSRB). Through extensive experiments, we demonstrate that this approach surpasses state-of-the-art models, particularly when dealing with images subjected to severe affine and projective deformations.	pt_BR
dc.language.iso	eng	pt_BR
dc.publisher	Universidade Federal de Pernambuco	pt_BR
dc.rights	openAccess	pt_BR
dc.rights.uri	https://creativecommons.org/licenses/by-nc-nd/4.0/	pt_BR
dc.subject	Affine Invariance	pt_BR
dc.subject	Projective Invariance	pt_BR
dc.subject	Geometric Deep Learning	pt_BR
dc.subject	Vision Transformer	pt_BR
dc.subject	Computer Vision	pt_BR
dc.title	Providing Projective and Affine Invariance for Recognition by Multi-Angle-Scale Vision Transformer	pt_BR
dc.type	doctoralThesis	pt_BR
dc.contributor.advisor-co	FERREIRA JUNIOR, Nivan Roberto	-
dc.contributor.authorLattes	http://lattes.cnpq.br/4031682801080795	pt_BR
dc.publisher.initials	UFPE	pt_BR
dc.publisher.country	Brasil	pt_BR
dc.degree.level	doutorado	pt_BR
dc.contributor.advisorLattes	http://lattes.cnpq.br/3847692220708299	pt_BR
dc.publisher.program	Programa de Pos Graduacao em Ciencia da Computacao	pt_BR
dc.description.abstractx	O reconhecimento de formas planares deformadas encontra aplicações em muitas áreas não relacionadas, tais como marketing, OCR e veículos autônomos. Um grande esforço tem sido dedicado a esse tema na literatura, baseado em abordagens geométri cas diretas, embora com resultados ou desempenho limitados. Mais recentemente, várias abordagens de aprendizado de máquina foram propostas, mas com resultados satisfató rios apenas quando a deformação é, no máximo, uma transformação afim fraca. Esta tese apresenta o Multi-Angle-Scale Vision Transformer, MASViT, uma solução baseada em aprendizado profundo que supera os métodos do estado da arte no reconhecimento de imagens deformadas por afinidades e projetividades. Um ponto crucial em nossa proposta é a ausência de imagens deformadas durante a fase de treinamento. Nossa abordagem emprega filtros convolucionais 1D correspondentes a linhas retas que cruzam a forma no domínio polar, preservando a colinearidade, um invariante projetivo fundamental. As sequências angulares derivadas do domínio polar integram-se bem à arquitetura Vision Transformer (ViT), pois esses patch embeddings são geometricamente coerentes, aumen tando a adequação ao codificador do transformer. Também introduzimos diversas técnicas de regularização para ampliar a capacidade de generalização do modelo. Para validar a abordagem, nós organizamos novos conjuntos de teste derivados do German Traffic Sign Recognition Benchmark (GTSRB). Por meio de extensos experimentos, demonstramos que essa abordagem supera os modelos do estado da arte, especialmente em cenários envolvendo imagens submetidas a severas deformações afins e projetivas.	pt_BR
dc.contributor.advisor-coLattes	http://lattes.cnpq.br/1386731424473050	pt_BR
Appears in Collections:	Teses de Doutorado - Ciência da Computação

Files in This Item:

File	Description	Size	Format
TESE Luiz Gustavo da Rocha Charamba.pdf		10.46 MB	Adobe PDF	View/Open

Este ítem está protegido por copyright original

Visualizar la licencia

Mostrar el registro sencillo del ítem Recomiende este ítem

Este ítem está sujeto a una licencia Creative Commons Licencia Creative Commons