Skip navigation
Por favor, use este identificador para citar o enlazar este ítem: https://repositorio.ufpe.br/handle/123456789/51840

Comparte esta pagina

Registro completo de metadatos
Campo DC Valor Lengua/Idioma
dc.contributor.advisorSALGADO, Ana Carolina Brandão-
dc.contributor.authorSILVA NETO, Everaldo Costa-
dc.date.accessioned2023-08-09T19:34:26Z-
dc.date.available2023-08-09T19:34:26Z-
dc.date.issued2023-06-13-
dc.identifier.citationSILVA NETO, Everaldo Costa. Discovering a domain-specific schema from general-purpose knowledge base. 2023. Tese (Doutorado em Ciência da Computação) – Universidade Federal de Pernambuco, Recife, 2023.pt_BR
dc.identifier.urihttps://repositorio.ufpe.br/handle/123456789/51840-
dc.description.abstractGeneral-purpose knowledge bases (KBs), e.g., DBpedia, YAGO, and Wikidata, store fac- tual data about a set of entities. These KBs have been constructed to store cross-domain knowledge, e.g., health, entertainment, industry, sports, and arts. Most applications that use data from general-purpose KBs are domain-specific. Some tasks, such as query formu- lation and information extraction, require a data schema to explore the contents of a KB. However, schema-related declarations are not mandatory and, sometimes, are not pro- vided. Therefore, these domain-specific applications face two issues: (1) they require only a subset of data that meets the domain of interest, but general-purpose KBs have a large volume of factual data within many distinct domains; and (2) the lack of schema-related information. In this thesis, we address the problem of domain-specific schema discov- ery from general-purpose KBs. Specifically, we build ANCHOR, an end-to-end pipeline to identify a domain-specific dataset as well as its schematic description in an automatic way. ANCHOR works in three steps: domain discovery, class identification and class schema discovery. First, it extracts a specific domain exploring category-category mappings from KB. From this, it identifies domain entities through entity-category mappings. Next, the class identification step discovers implicit classes within the dataset. For that, ANCHOR learns entity representation from entity-category mappings and uses it to identify im- plicit entities’ classes by grouping similar entities. Finally, the class schema discovery task builds the class schema, i.e., it identifies a set of relevant attributes that best describe the entities within the same class. For that, ANCHOR runs CoFFee, an approach based on attributes co-occurrence and frequency to identify a set of core attributes for each class discovered in the previous step. We have performed an extensive experimental evaluation on four distinct DBpedia domains. For the class identification task, we compare ANCHOR against some traditional and embedding-based baselines. The results show that applied to standard clustering algorithms, our entity representation outperforms the baselines and is effective for the class identification task. For the class schema discovery task, we compare CoFFee against two state-of-the-art approaches. The results show that CoFFee proved to be effective in filtering out less relevant attributes. It selects a set of core attributes keep- ing its retrieval rate high and producing a higher-quality schema class for the identified classes.pt_BR
dc.description.sponsorshipCAPESpt_BR
dc.language.isoengpt_BR
dc.publisherUniversidade Federal de Pernambucopt_BR
dc.rightsopenAccesspt_BR
dc.rightsAttribution-NonCommercial-NoDerivs 3.0 Brazil*
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/br/*
dc.subjectBanco de dadospt_BR
dc.subjectDescoberta de esquemapt_BR
dc.subjectDescoberta do domíniopt_BR
dc.subjectRepresentação de entidadept_BR
dc.titleDiscovering a domain-specific schema from general-purpose knowledge basept_BR
dc.typedoctoralThesispt_BR
dc.contributor.advisor-coBARBOSA, Luciano de Andrade-
dc.contributor.authorLatteshttp://lattes.cnpq.br/7274670474504964pt_BR
dc.publisher.initialsUFPEpt_BR
dc.publisher.countryBrasilpt_BR
dc.degree.leveldoutoradopt_BR
dc.contributor.advisorLatteshttp://lattes.cnpq.br/1095193209251351pt_BR
dc.publisher.programPrograma de Pos Graduacao em Ciencia da Computacaopt_BR
dc.description.abstractxBases de conhecimento de propósito geral, e.g., DBpedia, YAGO e Wikidata, armazenam dados factuais sobre um conjunto de entidades. Elas são construídas para armazenar con- hecimento de múltiplos domínios, e.g., saúde, entretenimento, indústria, esportes e artes. A maioria das aplicações que utilizam dados de bases de conhecimento de própósito geral é específica para um domínio. Algumas tarefas, tais como, formulação de consulta e extração da informação, requerem um esquema de dados para explorar o conteúdo de uma base de conhecimento. Entretanto, declarações específicas de esquema não são obrigatórias e, algu- mas vezes, não são fornecidas. Portanto, aplicações específicas para um domínio enfrentam dois problemas: (1) elas requerem apenas um subconjunto de dados de interesse ao domínio da aplicação, mas as bases de conhecimento de propósito geral possuem um grande vol- ume de dados factuais em diferentes domínios; e (2) a falta de informações relacionadas ao esquema. Nesta tese, endereçamos o problema da descoberta de esquema para um domínio específico a partir de bases de conhecimento de propósito geral. Especificamente, desenvolvemos ANCHOR, um pipeline ponta-a-ponta que tem como objetivo identificar, de maneira automática, um conjunto de dados para um domínio específico bem como a sua descrição de esquema. ANCHOR é dividido em três etapas: descoberta de domínio, identificação de classe e descoberta do esquema da classe. Inicialmente, ANCHOR extrai um domínio específico explorando os mapeamentos categoria-categoria fornecidos pela base de conhecimento. Em seguida, a etapa de identificação de classe descobre classes implícitas no conjunto de dados. ANCHOR aprende uma representação para cada en- tidade utilizando os mapeamentos entidade-categoria. Essa representação é usada para agrupar entidades similares com o objetivo de identificar classes de entidades implícitas no conjunto de dados. Por fim, a etapa de descoberta do esquema da classe identifica um conjunto de atributos relevantes que melhor descreve as entidades de uma mesma classe. ANCHOR executa CoFFee, uma abordagem baseada na coocorrência e frequência dos atributos para identificar um conjunto de atributos centrais em cada classe descoberta na etapa anterior. Realizamos experimentos em quatro domínios da DBpedia. Na tarefa de identificação de classe, comparamos ANCHOR com baselines tradicionais e baseadas em embeedings. Os resultados mostraram que, utilizando os algoritmos de agrupamento clássicos, a representação de entidade proposta nesta tese superou os baselines, mostrando ser eficiente para a tarefa de identificação de classe. Na tarefa de descoberta do esquema da classe, comparamos CoFFee com duas abordagens do estado da arte. Os resultados indicam que CoFFee é eficaz para filtrar atributos menos relavantes. Ele seleciona um conjunto de atributos centrais mantendo a taxa de recuperação alta e produzindo um esquema de alta qualidade para as classes identificadas.pt_BR
dc.contributor.advisor-coLatteshttp://lattes.cnpq.br/7113249247656195pt_BR
Aparece en las colecciones: Teses de Doutorado - Ciência da Computação

Ficheros en este ítem:
Fichero Descripción Tamaño Formato  
TESE Everaldo Costa Silva Neto.pdf4,11 MBAdobe PDFVista previa
Visualizar/Abrir


Este ítem está protegido por copyright original



Este ítem está sujeto a una licencia Creative Commons Licencia Creative Commons Creative Commons