Skip navigation
Use este identificador para citar ou linkar para este item: https://repositorio.ufpe.br/handle/123456789/35863

Compartilhe esta página

Título: Extração de características para segmentação de locutores
Autor(es): NERI, Leonardo Valeriano
Palavras-chave: Processamento de sinais e reconhecimento de padrões; Diarização de locutores; Segmentação de locutores; Sobreposição de fala
Data do documento: 21-Fev-2019
Editor: Universidade Federal de Pernambuco
Citação: NERI, Leonardo Valeriano. Extração de características para segmentação de locutores. 2019. Tese (Doutorado em Ciência da computação) – Universidade Federal de Pernambuco, Recife, 2019.
Abstract: A transcrição de locutores em conversações determina "quem falou e quando?", identificando o número de locutores presentes e os intervalos onde cada locutor fala. Um sistema de transcrição de locutores implementa quatro etapas fundamentais: Detecção de atividade de voz, extração de características acústicas, segmentação e clusterização dos locutores. A tarefa de segmentação torna-se um grande desafio em conversas de estilo livre, nas quais as transições entre locutores são frequentes e em muitas delas ocorrem a sobreposição da fala de dois ou mais locutores. Nesse cenário, a detecção de transições/mudanças, precisa ser feita utilizando segmentos curtos da fala de dois ou mais locutores, para não incluir duas ou mais mudanças na mesma amostra, e assim evitando perdas durante o processo. O estado da arte i-vector representa as características da fala correspondentes à identidade do locutor, projetada para discriminar pessoas. No entanto, seu desempenho é afetado pelo tamanho da amostra da fala, de tal modo que no cenário de conversações de estilo livre, seu desempenho é comparável com métodos tradicionais de modelagem das características acústicas utilizando misturas gaussianas. Propomos o Mel Cepstral Affinity Features (MCAF) um extrator de características da fala projetado para amostras curtas e próprio para a tarefa de segmentação de locutores. A característica proposta discrimina os diferentes tipos de fala: homogênea (amostra contendo um único locutor), heterogênea (dois locutores presentes sem sobreposição) e a sobreposta (ao menos dois locutores falando simultaneamente). Um método de janelas deslizantes utiliza essa discriminação para detectar as mudanças de locutor. Experimentos utilizando o corpora da AMI mostram que nossa proposta exibe um desempenho na métrica 𝐹₁ score 38% superior ao método de segmentação tradicional utilizando as características Mel Frequency Cepstral Coefficients (MFCC) e a distância Generalized Likelihood Ratio (GLR), e 15% superior ao método utilizando i-vector, considerado estado da arte para a tarefa, mas com menor custo computacional.
URI: https://repositorio.ufpe.br/handle/123456789/35863
Aparece nas coleções:Teses de Doutorado - Ciência da Computação

Arquivos associados a este item:
Arquivo Descrição TamanhoFormato 
TESE Leonardo Valeriano Neri.pdf3,15 MBAdobe PDFThumbnail
Visualizar/Abrir


Este arquivo é protegido por direitos autorais



Este item está licenciada sob uma Licença Creative Commons Creative Commons