Skip navigation
Por favor, use este identificador para citar o enlazar este ítem: https://repositorio.ufpe.br/handle/123456789/67273

Comparte esta pagina

Registro completo de metadatos
Campo DC Valor Lengua/Idioma
dc.contributor.advisorANJOS, Luiz Carlos Marques dos-
dc.contributor.authorCOSTA NETO, Arlindo Menezes da-
dc.date.accessioned2025-12-18T16:37:37Z-
dc.date.available2025-12-18T16:37:37Z-
dc.date.issued2025-11-26-
dc.identifier.citationCOSTA NETO, Arlindo Menezes da. Machine Learning and Readability in Accounting: An Ensemble Learning Approach. 2025. Tese (Doutorado em Ciências Contábeis) - Universidade Federal de Pernambuco, Recife, 2025.pt_BR
dc.identifier.urihttps://repositorio.ufpe.br/handle/123456789/67273-
dc.description.abstractWe expand on the value relevance of accounting information by exploring a new metric for valuing the financial text, to do so we employ a language model (FinBERT-PT-BR) trained in Brazilian Portuguese to develop an Informativeness Index, assigning scores to 26.804 quarterly financial statement notes from 1.152 companies in Brazil over the span of 12 years. As a verification of our model’s capability to understand textual data, we calculate the usual readability metrics (Flesch-Kincaid reading ease, Fog index, SMOG index, Loughran McDonald Index) for all the notes and employ machine learning models to evaluate which readability metric best represents an informativeness index built upon the dimensions of Boilerplateness, Completeness and Density, expecting our proposed metric to be poorly related to the readability metrics. The evaluation of which readability metric is closest to measuring the informativeness of financial text is based on the feature importance, which indicates the best proxy for financial text readability of Portuguese text is be the Loughran McDonald Index. The Loughran-McDonald Index is the only one with any relevance in the regressors, and as is based on file size, we assume our metric as capable of measuring textual information value better than common readability metrics, while pointing to the Loughran-McDonald to be a reasonable proxy to informational value of financial text. This research innovates by presenting a new method to quantify the informational value of financial information, contributing to value-relevance literature as well as literature of machine learning employment in accounting research, additionally we do so within a not-so-explored field (Portuguese financial information) with a reasonably large dataset. Further research may be needed to combine our proposed model with market-related metrics or human experiments to increase the validity of the metric concept.pt_BR
dc.language.isoengpt_BR
dc.publisherUniversidade Federal de Pernambucopt_BR
dc.rightsopenAccesspt_BR
dc.rights.urihttps://creativecommons.org/licenses/by-nc-nd/4.0/pt_BR
dc.subjectInformativenesspt_BR
dc.subjectMachine Learningpt_BR
dc.subjectAccounting informationpt_BR
dc.titleMachine Learning and Readability in Accounting: An Ensemble Learning Approachpt_BR
dc.typedoctoralThesispt_BR
dc.contributor.authorLatteshttp://lattes.cnpq.br/2667949398304488pt_BR
dc.publisher.initialsUFPEpt_BR
dc.publisher.countryBrasilpt_BR
dc.degree.leveldoutoradopt_BR
dc.contributor.advisorLatteshttp://lattes.cnpq.br/2136400491380618pt_BR
dc.publisher.programPrograma de Pos Graduacao em Ciencias Contabeispt_BR
dc.description.abstractxEste estudo emprega o FinBERT-PT-BR, um modelo de linguagem baseado em trans formadores treinado em textos financeiros em português do Brasil, para desenvolver um Índice de Informatividade, concebido para quantificar o valor informacional das divulgações financeiras. O conjunto de dados é composto por 26.804 notas explicativas anuais de 1.152 companhias abertas brasileiras, abrangendo um período de 12 anos (2011–2023). Além o índice, são calculadas as medidas tradicionais de legibilidade, Flesch-Kincaid Reading Ease, Índice de Fog, Índice SMOG e Índice de Loughran-McDonald, para cada nota. Em seguida, aplicam-se modelos de aprendizado de máquina (Random Forest e Gradient Boosting) para avaliar qual dessas métricas de legibilidade melhor representa o índice de informatividade derivado das três dimensões fundamentais: Padronização (Boilerplateness), Completude e Densidade. As análises de importância das variáveis nos diferentes modelos indicam que o Índice de Loughran-McDonald é o que mais se aproxima da variação do índice de informatividade, sugerindo que ele é a proxy mais eficaz para mensurar a legibilidade dos textos financeiros em português. Esse resultado com base em evidência empírica implica mudanças sobre a relação teórica entre complexidade textual e ofuscação informacional sob a ótica da teoria da agência. A pesquisa contribui para a literatura ao integrar modelos de linguagem e técnicas de aprendizado de máquina ao estudo da qualidade das divulgações financeiras em português, um contexto linguístico e regulatório ainda pouco explorado, utilizando um banco de dados extenso. Pesquisas futuras podem ampliar essa abordagem ao incorporar modelos multilíngues, avaliações humanas ou embeddings híbridos, de modo a aprimorar e validar o conceito de informatividadept_BR
Aparece en las colecciones: Teses de Doutorado - Ciências Contábeis

Ficheros en este ítem:
Fichero Descripción Tamaño Formato  
TESE Arlindo Menezes da Costa Neto.pdf907.42 kBAdobe PDFVista previa
Visualizar/Abrir


Este ítem está protegido por copyright original



Este ítem está sujeto a una licencia Creative Commons Licencia Creative Commons Creative Commons