Por favor, use este identificador para citar o enlazar este ítem:
https://repositorio.ufpe.br/handle/123456789/52538
Comparte esta pagina
Registro completo de metadatos
Campo DC | Valor | Lengua/Idioma |
---|---|---|
dc.contributor.advisor | PRUDÊNCIO, Ricardo Bastos Cavalcante | - |
dc.contributor.author | OLIVEIRA, Chaina Santos | - |
dc.date.accessioned | 2023-09-29T17:12:13Z | - |
dc.date.available | 2023-09-29T17:12:13Z | - |
dc.date.issued | 2023-06-19 | - |
dc.identifier.citation | OLIVEIRA, Chaina Santos. A two-level item response theory model to evaluate automatic speech synthesis and recognition systems. 2023. Tese (Doutorado em Ciência da Computação) – Universidade Federal de Pernambuco, Recife, 2023. | pt_BR |
dc.identifier.uri | https://repositorio.ufpe.br/handle/123456789/52538 | - |
dc.description.abstract | Automatic speech recognition systems (ASRs) have become popular in different ap- plications. Ideally, ASRs should be tested under different scenarios by adopting diverse speech test data (e.g., diverse sentences and speakers). Relying on audio test data recorded using human speakers is time-consuming. An alternative is to use text-to-speech (TTS) tools to synthesize audios given a set of sentences and virtual speakers. The ASR under test receives the synthesized audios and the transcription errors are recorded for evalu- ation. Despite the availability of TTS tools, not all synthesized speeches have the same quality. It is important to evaluate the usefulness of speakers and the relevance of sen- tences for ASR evaluation. In this work, we propose a two-level Item Response Theory (IRT) model to simultaneously evaluate ASRs, speakers and sentences, which is original in the literature. IRT is a paradigm from psychometrics to estimate the ability of human respondents based on their responses to items with different levels of difficulty. In the first level of the proposed model, an item is a synthesized speech, a respondent is an ASR system and each response is the transcription accuracy observed when a synthesized speech is adopted for testing an ASR system. IRT is then used to estimate the difficulty of each synthesized speech as well as the ability of each ASR system. In the second level, the difficulty of each synthesized speech is decomposed into the sentence’s difficulty and discrimination and the speaker’s quality. The difficulty of a synthesized speech tends to be high when it is generated from a difficult sentence and a bad speaker, and sentences with greater discriminations tend to better differentiate between good and bad speakers. The ASR’s ability is high when it is robust to hard speeches in turn. Before performing the experiments with the two-IRT level model we propose in this work, we executed a preliminary case study to verify the viability of applying IRT in the context of speech evaluation. In this first case study, IRT was applied to evaluate 62 speakers (from four TTS tools) and to characterize the difficulty of 12 different sentences. The experiments presented interesting insights about the relevance of applying IRT to evaluate sentences and speakers, which inspired us to explore other scenarios. So, we modeled the two-IRT level model already introduced and executed the second case study. Four ASR systems were adopted to transcribe synthesized speeches from 100 benchmark sentences and 75 speakers. Performed experiments revealed useful insights on how the quality of speech synthesis and recognition can be affected by distinct factors (e.g., sentence difficulty and speaker ability). We also explored the impact of pitch, rate, and noise insertion on pa- rameter estimation and system performance. | pt_BR |
dc.description.sponsorship | FACEPE | pt_BR |
dc.language.iso | eng | pt_BR |
dc.publisher | Universidade Federal de Pernambuco | pt_BR |
dc.rights | embargoedAccess | pt_BR |
dc.rights | Attribution-NonCommercial-NoDerivs 3.0 Brazil | * |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/3.0/br/ | * |
dc.subject | Inteligência computacional | pt_BR |
dc.subject | Benchmark de fala | pt_BR |
dc.subject | Reconhecimento da fala | pt_BR |
dc.title | A two-level item response theory model to evaluate automatic speech synthesis and recognition systems | pt_BR |
dc.type | doctoralThesis | pt_BR |
dc.contributor.authorLattes | http://lattes.cnpq.br/8883571259444620 | pt_BR |
dc.publisher.initials | UFPE | pt_BR |
dc.publisher.country | Brasil | pt_BR |
dc.degree.level | doutorado | pt_BR |
dc.contributor.advisorLattes | http://lattes.cnpq.br/2984888073123287 | pt_BR |
dc.publisher.program | Programa de Pos Graduacao em Ciencia da Computacao | pt_BR |
dc.description.abstractx | Sistemas de reconhecimento da fala têm se tornado populares em diversas aplicações. Idealmente, tais sistemas devem ser testados em diferentes cenários, com diversos tipos de falas, sentenças e locutores. Adquirir dados de teste a partir de falas humanas gravadas é custoso em questão de tempo. Uma alternativa é usar ferramentas text-to-speech (TTS) para sintetizar áudios dado um conjunto de sentenças e locutores virtuais. Desta forma, o sistema que está sendo testado recebe um áudio sintetizado, faz a transcrição e os erros de transcrição são coletados para posterior avaliação. Apesar da grande disponibilidade de serviços de síntese da fala, nem todas as falas sintetizadas têm a mesma qualidade. É importante avaliar a utilidade dos locutores e das sentenças para a avaliação do sistema de reconhecimento da fala. Assim, este trabalho propõe um modelo de Teoria de Resposta ao Item (TRI) de dois níveis para avaliar locutores, sentenças e sistemas de reconhecimento da fala, o que é original na literatura. TRI é uma abordagem da psicometria para estimar a habilidade de respondentes humanos, tendo como base as suas respostas a itens com diferentes níveis de dificuldade. No primeiro nível do modelo proposto, um item é uma fala sintética, um respondente é um sistema de reconhecimento da fala, e cada resposta é a acurácia da transcrição de uma fala sintetizada por um sistema de reconhecimento da fala. Um modelo de TRI é, então, usado para estimar a dificuldade de cada fala sintetizada e a habilidade do sistema de reconhecimento da fala. No segundo nível, a dificuldade de cada fala sintética é decomposta em: dificuldade e discriminação da sentença, e a qual- idade do locutor. A dificuldade da fala sintética tende a ser alta quando ela é gerada a partir de uma sentença difícil e um locutor ruim, e sentenças com discriminações maiores tendem a diferenciar melhor entre locutores bons e ruins. A habilidade de um sistema de reconhecimento da fala é alta quando ele é robusto a falas difíceis. Antes de executar experimentos com o modelo TRI de dois níveis proposto neste trabalho, nós executamos um estudo de caso preliminar para verificar a viabilidade de aplicar TRI no contexto de avaliação da fala. Nesta experimentação inicial, um modelo TRI de um nível foi usado para avaliar 62 locutores (de quatro sistemas de síntese da fala) e 12 sentenças. Os re- sultados mostraram a relevância de aplicar TRI para avaliar sentenças e locutores dentro deste contexto, o que nos estimulou a elaborar outros estudos de caso. Em seguida, desen- volvemos o modelo TRI de dois níveis e executamos experimentos usando tal abordagem. Desta vez, quatro sistemas de reconhecimento da fala foram adotados para transcrever as falas sintéticas resultantes de 100 sentenças de benchmark e 75 locutores. Os experimentos mostraram como a qualidade da síntese e reconhecimento das falas pode ser afetada por fatores diversos, como a dificuldade da sentença e a habilidade dos locutores. Também exploramos o impacto de pitch, rate e da inserção de ruído na estimação dos parâmetros e no desempenho dos sistemas. | pt_BR |
Aparece en las colecciones: | Dissertações de Mestrado - Ciência da Computação |
Ficheros en este ítem:
Fichero | Descripción | Tamaño | Formato | |
---|---|---|---|---|
TESE Chaina Santos Oliveira.pdf Artículo embargado hasta 2025-09-30 | 2,65 MB | Adobe PDF | Visualizar/Abrir Item embargoed |
Este ítem está protegido por copyright original |
Este ítem está sujeto a una licencia Creative Commons Licencia Creative Commons