Skip navigation
Por favor, use este identificador para citar o enlazar este ítem: https://repositorio.ufpe.br/handle/123456789/35863

Comparte esta pagina

Registro completo de metadatos
Campo DC Valor Lengua/Idioma
dc.contributor.advisorREN, Tsang Ing-
dc.contributor.authorNERI, Leonardo Valeriano-
dc.date.accessioned2019-12-18T19:33:01Z-
dc.date.available2019-12-18T19:33:01Z-
dc.date.issued2019-02-21-
dc.identifier.citationNERI, Leonardo Valeriano. Extração de características para segmentação de locutores. 2019. Tese (Doutorado em Ciência da computação) – Universidade Federal de Pernambuco, Recife, 2019.pt_BR
dc.identifier.urihttps://repositorio.ufpe.br/handle/123456789/35863-
dc.description.abstractA transcrição de locutores em conversações determina "quem falou e quando?", identificando o número de locutores presentes e os intervalos onde cada locutor fala. Um sistema de transcrição de locutores implementa quatro etapas fundamentais: Detecção de atividade de voz, extração de características acústicas, segmentação e clusterização dos locutores. A tarefa de segmentação torna-se um grande desafio em conversas de estilo livre, nas quais as transições entre locutores são frequentes e em muitas delas ocorrem a sobreposição da fala de dois ou mais locutores. Nesse cenário, a detecção de transições/mudanças, precisa ser feita utilizando segmentos curtos da fala de dois ou mais locutores, para não incluir duas ou mais mudanças na mesma amostra, e assim evitando perdas durante o processo. O estado da arte i-vector representa as características da fala correspondentes à identidade do locutor, projetada para discriminar pessoas. No entanto, seu desempenho é afetado pelo tamanho da amostra da fala, de tal modo que no cenário de conversações de estilo livre, seu desempenho é comparável com métodos tradicionais de modelagem das características acústicas utilizando misturas gaussianas. Propomos o Mel Cepstral Affinity Features (MCAF) um extrator de características da fala projetado para amostras curtas e próprio para a tarefa de segmentação de locutores. A característica proposta discrimina os diferentes tipos de fala: homogênea (amostra contendo um único locutor), heterogênea (dois locutores presentes sem sobreposição) e a sobreposta (ao menos dois locutores falando simultaneamente). Um método de janelas deslizantes utiliza essa discriminação para detectar as mudanças de locutor. Experimentos utilizando o corpora da AMI mostram que nossa proposta exibe um desempenho na métrica 𝐹₁ score 38% superior ao método de segmentação tradicional utilizando as características Mel Frequency Cepstral Coefficients (MFCC) e a distância Generalized Likelihood Ratio (GLR), e 15% superior ao método utilizando i-vector, considerado estado da arte para a tarefa, mas com menor custo computacional.pt_BR
dc.description.sponsorshipCNPqpt_BR
dc.language.isoporpt_BR
dc.publisherUniversidade Federal de Pernambucopt_BR
dc.rightsopenAccesspt_BR
dc.rightsAttribution-NonCommercial-NoDerivs 3.0 Brazil*
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/br/*
dc.subjectProcessamento de sinais e reconhecimento de padrõespt_BR
dc.subjectDiarização de locutorespt_BR
dc.subjectSegmentação de locutorespt_BR
dc.subjectSobreposição de falapt_BR
dc.titleExtração de características para segmentação de locutorespt_BR
dc.typedoctoralThesispt_BR
dc.contributor.advisor-coCAVALCANTI, George Darmiton da Cunha-
dc.contributor.authorLatteshttp://lattes.cnpq.br/5889798081215478pt_BR
dc.publisher.initialsUFPEpt_BR
dc.publisher.countryBrasilpt_BR
dc.degree.leveldoutoradopt_BR
dc.contributor.advisorLatteshttp://lattes.cnpq.br/3084134533707587pt_BR
dc.publisher.programPrograma de Pos Graduacao em Ciencia da Computacaopt_BR
dc.description.abstractxSpeaker diarization determines "who spoke and when?" in a conversation, detects the number of speakers and the intervals where each speaker is active. A speaker diarization system has at least four fundamental steps: voice activity detection, acoustic feature extraction, speaker segmentation, and speaker clustering. The segmentation step becomes a big challenge in spontaneous conversations scenario, because transitions between speakers occur frequently, andaround the transitions the speech from the speakers overlap. In this scenario, the detection of a speaker change is performed using short segments of speech, in order to avoid to have more than one speaker change per segment, so no change is missed. The state of the art i-vector represents the speech characteristics corresponding to the identity of the speaker, designed to discriminate people. However, its performance is affected by speech sample size, so that in the spontaneous talk scenario, its performance is comparable to traditional acoustic modeling methods using Gaussian mixture models. We propose the use of Mel Cepstral Affinity Features (MCAF), designed for short samples and the task of speaker segmentation. The proposed feature discriminates the different types of speech segments: homogeneous (segment containing a single speaker), heterogeneous (two speakers present without overlap) and overlapped (at least two speakers speaking simultaneously). A two sliding window method uses this discrimination to detect speaker changes. Experiments using the AMI corpora show that our proposed feature exhibits superior performance of 𝐹₁ score in 38% to traditional segmentation method using MFCC and GLR distance, and it is 15% superior to the i-vector-based method, which is considered state of the art for the task, but with lower computational cost.pt_BR
dc.contributor.advisor-coLatteshttp://lattes.cnpq.br/8577312109146354pt_BR
Aparece en las colecciones: Teses de Doutorado - Ciência da Computação

Ficheros en este ítem:
Fichero Descripción Tamaño Formato  
TESE Leonardo Valeriano Neri.pdf3,15 MBAdobe PDFVista previa
Visualizar/Abrir


Este ítem está protegido por copyright original



Este ítem está sujeto a una licencia Creative Commons Licencia Creative Commons Creative Commons