Using Item Response Theory to evaluate feature relevance in missing data scenarios

REINALDO, Jessica Tais de Souza

Por favor, use este identificador para citar o enlazar este ítem: https://repositorio.ufpe.br/handle/123456789/46381

Comparte esta pagina

Registro completo de metadatos

Campo DC	Valor	Lengua/Idioma
dc.contributor.advisor	PRUDÊNCIO, Ricardo Bastos Cavalcante	-
dc.contributor.author	REINALDO, Jessica Tais de Souza	-
dc.date.accessioned	2022-09-13T18:54:57Z	-
dc.date.available	2022-09-13T18:54:57Z	-
dc.date.issued	2022-03-29	-
dc.identifier.citation	REINALDO, Jessica Tais de Souza. Using Item Response Theory to evaluate feature relevance in missing data scenarios. 2022. Dissertação (Mestrado em Ciência da Computação) – Universidade Federal de Pernambuco, Recife, 2022.	pt_BR
dc.identifier.uri	https://repositorio.ufpe.br/handle/123456789/46381	-
dc.description.abstract	Item Response Theory (IRT) has been historically used to evaluate the latent abilities of human respondents to a set of items. Recently, e orts have been made to propose solutions that use IRT to solve classification problems, where the respondents are classifiers and the items are the instances of a dataset. Most of the initial works that tried to tackle this problem used a dichotomous IRT model, which is capable of modelling the classification problem only in terms of correct and wrong predictions. B3-IRT o ers a powerful tool to analyze datasets and classifiers, as the response is continuous, so instead of representing the predictions just as right or wrong answers, the response can be represented by the probability of a correct prediction. Although the IRT formulation can provide rich information about the behavior of the models towards the instances of a dataset, no previous work has investigated the application of IRT to rank features in an instance-based approach, or even to evaluate how missing data can impact the IRT parameters for instances (diculty and discrimination) and classifiers (ability). We propose a workflow that uses B3-IRT in missing data scenarios to evaluate the relevance of features both locally for each instance of a dataset, and globally for the whole dataset. In this workflow, data is missing at test time, and missing values are filled out with imputed values, in order to evaluate how much the missing data can a ect the ability of classifiers and di culty and discrimination of instances. This novel application represents an alternative to feature selection and feature ranking techniques that is capable to provide an overview of feature relevance both at global and instance level.	pt_BR
dc.description.sponsorship	CNPq	pt_BR
dc.language.iso	eng	pt_BR
dc.publisher	Universidade Federal de Pernambuco	pt_BR
dc.rights	openAccess	pt_BR
dc.rights.uri	http://creativecommons.org/licenses/by-nc-nd/3.0/br/	*
dc.subject	Inteligência artificial	pt_BR
dc.subject	Ranqueamento de variáveis	pt_BR
dc.title	Using Item Response Theory to evaluate feature relevance in missing data scenarios	pt_BR
dc.type	masterThesis	pt_BR
dc.contributor.advisor-co	SILVA FILHO, Telmo de Menezes e	-
dc.contributor.authorLattes	http://lattes.cnpq.br/0857916208146061	pt_BR
dc.publisher.initials	UFPE	pt_BR
dc.publisher.country	Brasil	pt_BR
dc.degree.level	mestrado	pt_BR
dc.contributor.advisorLattes	http://lattes.cnpq.br/2984888073123287	pt_BR
dc.publisher.program	Programa de Pos Graduacao em Ciencia da Computacao	pt_BR
dc.description.abstractx	A Teoria de Resposta ao Item (TRI) tem sido historicamente usada para avaliar as habilidades latentes de respondentes humanos quando estes respondem a um conjunto de questões, chamadas de itens do problema de TRI. Recentemente, a comunidade ciêntifica começou a propor soluções que utilizem a TRI para resolver problemas de classificação, onde os respondentes são classificadores e os itens são as instâncias de um conjunto de dados. A maioria dos trabalhos iniciais que tentaram resolver este problema utilizou um modelo dicotômico de TRI, que é capaz de modelar o problema de classificação apenas em termos de previsões corretas e incorretas. O B3-IRT oferece uma formulação mais poderosa para esta aplicação de TRI, já que a resposta deste modelo é contínua, portanto, em vez de representar as predições de um modelo classificador apenas como respostas certas ou erradas (dicotômico), a resposta pode ser representada pela probabilidade de uma predição correta. Embora a formulação da TRI possa conter muita informação sobre o comportamento dos modelos em relação às instâncias de um conjunto de dados, nenhum trabalho anterior investigou a aplicação da TRI para classificar a relevância ou importância das variáveis de um conjunto de dados em uma abordagem baseada nas próprias instâncias, ou mesmo avaliar como dados faltantes podem afetar os parâmetros da TRI para instâncias (dificuldade e discriminação) e classificadores (habilidade). Neste trabalho, nós propomos um workflow que usa B3-IRT em cenários de dados faltantes para avaliar a relevância dos variáveis tanto localmente para cada instância quanto globalmente para todo o conjunto de dados. Nesse workflow, os dados faltantes ocorrem apenas no momento do teste, e os valores faltantes são preenchidos com valores imputados, a fim de avaliar o quanto os dados faltantes podem afetar a habilidade dos classificadores e a dificuldade e discriminação das instâncias. Esta nova abordagem proposta neste trabalho representa uma alternativa às técnicas de seleção e ranqueamento de variáveis capaz de fornecer uma visão geral da relevância das variáveis de um conjunto de dados tanto em nível global quanto em nível de instância.	pt_BR
dc.contributor.advisor-coLattes	http://lattes.cnpq.br/4640945954423515	pt_BR
Aparece en las colecciones:	Dissertações de Mestrado - Ciência da Computação

Ficheros en este ítem:

Fichero	Descripción	Tamaño	Formato
DISSERTAÇÃO Jessica Tais de Souza Reinaldo.pdf		13,92 MB	Adobe PDF	Visualizar/Abrir

Este ítem está protegido por copyright original

Visualizar la licencia

Mostrar el registro sencillo del ítem Recomiende este ítem

Este ítem está sujeto a una licencia Creative Commons Licencia Creative Commons