ELODIN : naming concepts in embedding spaces

MELLO, Rodrigo Vitor Castro Alves de

Please use this identifier to cite or link to this item: https://repositorio.ufpe.br/handle/123456789/57554

Share on

Full metadata record

DC Field	Value	Language
dc.contributor.advisor	RAMALHO, Geber Lisboa Ramalho	-
dc.contributor.author	MELLO, Rodrigo Vitor Castro Alves de	-
dc.date.accessioned	2024-08-26T13:36:22Z	-
dc.date.available	2024-08-26T13:36:22Z	-
dc.date.issued	2023-09-27	-
dc.identifier.citation	MELLO, Rodrigo Vitor Castro Alves de. ELODIN: naming concepts in embedding spaces. 2023. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de Pernambuco, Recife, 2023.	pt_BR
dc.identifier.uri	https://repositorio.ufpe.br/handle/123456789/57554	-
dc.description.abstract	Despite recent advancements, the field of text-to-image synthesis still suffers from the lack of fine-grained control. Using only text, it remains challenging to deal with issues such as concept coherence and concept cohesion. A method to enhance control by generating new words that can be reused throughout multiple images is proposed. Each new word, which I call “named concept”, can be mixed and matched freely with natural language, effectively expanding human vocabulary. Just as a painter combines pre-existing shades into personalized colors according to their needs, the proposed method enables combining e.g. “yellow” and “hawk” into a single word, that is, a single named concept. The new word, when present in subsequent text prompts, results in images that consistently contain the same yellow hawk. Unlike previous contributions, our method does not replicate visuals from input data. In some cases, it can generate visual concepts in a zero-shot manner, that is, without any visual input. A set of comparisons show our method to be a significant improvement over text prompts containing only natural language. Theoretical considerations on the foundations of Deep Learning are made throughout the text and Name Learning is proposed.	pt_BR
dc.description.sponsorship	CNPq	pt_BR
dc.language.iso	eng	pt_BR
dc.publisher	Universidade Federal de Pernambuco	pt_BR
dc.rights	openAccess	pt_BR
dc.rights	Attribution-NonCommercial-NoDerivs 3.0 Brazil	*
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/br/	*
dc.subject	Inteligência computacional	pt_BR
dc.subject	Processamento de linguagem natural	pt_BR
dc.subject	Deep learning	pt_BR
dc.title	ELODIN : naming concepts in embedding spaces	pt_BR
dc.type	masterThesis	pt_BR
dc.contributor.advisor-co	CALEGÁRIO, Filipe Carlos de Albuquerque	-
dc.contributor.authorLattes	http://lattes.cnpq.br/3635922311097771	pt_BR
dc.publisher.initials	UFPE	pt_BR
dc.publisher.country	Brasil	pt_BR
dc.degree.level	mestrado	pt_BR
dc.contributor.advisorLattes	http://lattes.cnpq.br/9783292465422902	pt_BR
dc.publisher.program	Programa de Pos Graduacao em Ciencia da Computacao	pt_BR
dc.description.abstractx	Apesar dos avanços recentes, o campo da síntese de imagens a partir de texto ainda sofre com a falta de controle no. Usando apenas texto, continua sendo desafiador lidar com questões como coerência de conceitos e coesão de conceitos. Eu proponho um método para melhorar o controle gerando novas palavras que podem ser reutilizadas em várias gerações. Cada nova palavra, que chamamos de “conceito nomeado”, pode ser misturada e combinada livremente com linguagem natural, expandindo o vocabulário humano. Assim como um pintor combina tons pré-existentes em cores personalizadas de acordo com suas necessidades, o método proposto permite combinar, por exemplo, “amarelo” e “falcão” em uma única palavra, isto é, um único conceito nomeado. A nova palavra, quando presente em prompts de texto subsequentes, resulta em imagens que contêm, consistentemente, o mesmo falcão amarelo. Diferentemente de propostas anteriores, esse método não replica visuais presentes em dados de entrada. Em alguns casos, pode gerar conceitos visuais de forma zero-shot, sem qualquer entrada de imagem. Um conjunto de comparações mostram a melhoria significativa da proposta sobre prompts de texto contendo apenas linguagem natural. Considerações teóricas sobre os fundamentos de Deep Learning são realizadas ao longo do texto e Name Learning é proposto.	pt_BR
dc.contributor.advisor-coLattes	http://lattes.cnpq.br/7709859860474826	pt_BR
Appears in Collections:	Dissertações de Mestrado - Ciência da Computação

Files in This Item:

File	Description	Size	Format
DISSERTAÇÃO Rodrigo Vitor Castro Alves de Mello.pdf		15.34 MB	Adobe PDF	View/Open

This item is protected by original copyright

View License

Show simple item record Recommend this item

This item is licensed under a Creative Commons License