A new approach to semantic mapping using reusable consolidated visual representations

SOUSA, Ygor César Nogueira

Por favor, use este identificador para citar o enlazar este ítem: https://repositorio.ufpe.br/handle/123456789/55203

Comparte esta pagina

Registro completo de metadatos

Campo DC	Valor	Lengua/Idioma
dc.contributor.advisor	BASSANI, Hansenclever de França	-
dc.contributor.author	SOUSA, Ygor César Nogueira	-
dc.date.accessioned	2024-02-27T17:20:40Z	-
dc.date.available	2024-02-27T17:20:40Z	-
dc.date.issued	2023-08-28	-
dc.identifier.citation	SOUSA, Ygor César Nogueira. A new approach to semantic mapping using reusable consolidated visual representations. 2023. Tese (Doutorado em Ciência da Computação) – Universidade Federal de Pernambuco, Recife, 2023.	pt_BR
dc.identifier.uri	https://repositorio.ufpe.br/handle/123456789/55203	-
dc.description.abstract	The advancement of robotics may produce a positive impact on several aspects of our society. However, in order for robotic agents to assist humans in a variety of everyday ac- tivities, they need to possess representations of their environments that allow spatial and human-centered semantic understanding. Many works in the recent literature use Convolu- tional Neural Network (CNN) models to recognize semantic properties of images and incor- porate the results into traditional metric or topological maps, a procedure known as semantic mapping. The types of semantic properties (e.g., room size, place category, and objects) and their semantic classes (e.g., kitchen and bedroom, for place category) are usually previously defined and restricted to the planned tasks. Thus, all the visual data acquired and processed during the construction of the maps is lost, and only the recognized semantic properties re- main on the maps. In contrast, this research proposes using the visual data acquired during the mapping process to create reusable representations of regions by consolidating deep features extracted from the data. These consolidated representations would allow the recognition of new semantic information in a flexible way, and consequently, the adaptation of the semantics of the maps to new requirements of new tasks without the need for remapping. Such use of reusable consolidated representations for the generation of semantic maps is demonstrated in a topological mapping method that creates consolidated representations of deep visual fea- tures extracted from RGB images captured around each topological node. This is done using a process we denote as Topological Consolidation of Features by Moving Averages (TCMA). Experiments performed with real-world indoor datasets suggested that the proposed method is able to create consolidated representations that fairly preserve the visual features of the original images they consolidated and do not degrade in quality over time. Furthermore, the very promising results suggested that the consolidated representations produced are suitable for recognizing different semantic properties, indicating the topological location of images and adapting previously created maps with new semantic information. The experiments included two different CNNs for deep features extraction, classifiers trained on large-scale datasets from the literature, and more practical real-time scenarios. Different variations of the method were evaluated, including a derivation of the TCMA process that uses the arithmetic mean of multiple exponential moving averages.	pt_BR
dc.description.sponsorship	CAPES	pt_BR
dc.language.iso	eng	pt_BR
dc.publisher	Universidade Federal de Pernambuco	pt_BR
dc.rights	openAccess	pt_BR
dc.rights	Attribution-NonCommercial-NoDerivs 3.0 Brazil	*
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/br/	*
dc.subject	Inteligência computacional	pt_BR
dc.subject	Mapeamento semântico topológico	pt_BR
dc.subject	Robótica móvel	pt_BR
dc.title	A new approach to semantic mapping using reusable consolidated visual representations	pt_BR
dc.type	doctoralThesis	pt_BR
dc.contributor.authorLattes	http://lattes.cnpq.br/6025443250615104	pt_BR
dc.publisher.initials	UFPE	pt_BR
dc.publisher.country	Brasil	pt_BR
dc.degree.level	doutorado	pt_BR
dc.contributor.advisorLattes	http://lattes.cnpq.br/1931667959910637	pt_BR
dc.publisher.program	Programa de Pos Graduacao em Ciencia da Computacao	pt_BR
dc.description.abstractx	O avanço da robótica pode produzir um impacto positivo em vários aspectos da nossa sociedade. No entanto, para que os agentes robóticos auxiliem os seres humanos em uma var- iedade de atividades cotidianas, eles precisam possuir representações de seus ambientes que permitam a compreensão espacial e semântica centrada em seres humanos. Muitos trabalhos na literatura recente usam Redes Neurais Convolucionais (CNN, do inglês Convolutional Neu- ral Network) para reconhecer propriedades semânticas de imagens e incorporam os resultados em mapas métricos ou topológicos tradicionais, um procedimento conhecido como mapea- mento semântico. Os tipos de propriedades semânticas (ex: tamanho do cômodo, categoria de lugar e objetos) e suas classes semânticas (ex: cozinha e quarto, para categoria de lugar) geralmente são previamente definidos e restritos às tarefas planejadas. Assim, todos os dados visuais adquiridos e processados durante a construção dos mapas são perdidos, restando ape- nas as propriedades semânticas reconhecidas nos mapas. Em contraste, esta pesquisa propõe usar os dados visuais adquiridos durante o processo de mapeamento para criar representações reutilizáveis de regiões pela consolidação de características visuais profundas extraídas dos dados. Essas representações consolidadas permitiriam o reconhecimento de novas informações semânticas de forma flexível e, consequentemente, a adaptação da semântica dos mapas a novos requisitos de novas tarefas sem a necessidade de remapeamento. O uso de represen- tações consolidadas reutilizáveis para a geração de mapas semânticos é demonstrado em um método de mapeamento topológico que cria representações consolidadas de características vi- suais profundas extraídas de imagens RGB capturadas em torno de cada nó topológico. Isso é feito usando um processo que denominamos como Consolidação Topológica de Características por Médias Móveis (TCMA, do inglês Topological Consolidation of Features by Moving Aver- ages). Experimentos realizados com conjuntos de dados de ambientes internos do mundo real sugeriram que o método proposto é capaz de criar representações consolidadas que preservam as características visuais das imagens originais consolidadas e não degradam a qualidade ao longo do tempo. Além disso, os resultados promissores sugeriram que as representações consol- idadas produzidas são adequadas para o reconhecimento de diferentes propriedades semânticas, a localização topológica de imagens e adaptação de mapas criados anteriormente com novas informações semânticas. Os experimentos incluíram duas CNNs diferentes para extração de características profundas, classificadores treinados em conjuntos de dados de larga escala da lit- eratura e cenários mais práticos com execução em tempo real. Diferentes variações do método foram avaliadas, incluindo uma derivação do processo TCMA que usa a média aritmética de múltiplas médias móveis exponenciais.	pt_BR
Aparece en las colecciones:	Teses de Doutorado - Ciência da Computação

Ficheros en este ítem:

Fichero	Descripción	Tamaño	Formato
TESE Ygor César Nogueira Sousa.pdf		14.64 MB	Adobe PDF	Visualizar/Abrir

Este ítem está protegido por copyright original

Visualizar la licencia

Mostrar el registro sencillo del ítem Recomiende este ítem

Este ítem está sujeto a una licencia Creative Commons Licencia Creative Commons