pt-br

Defesa de Doutorado: Tiago Silva Corrêa

Título: Integração de representações temporais e embeddings de áudio para classificação musical: uma abordagem híbrida

Comissão Examinadora - Titulares
Prof. Dr Ulisses Martins Dias (Presidente) - FT/Unicamp
Prof. Dr. Luis Augusto Angelotti Meira - FT/Unicamp
Prof. Dr. André Franceschi de Angelis - FT/Unicamp
Prof. Dr. Lucas Bueno Ruas de Oliveira - IFSP
Prof. Dr. Alan Demétrius Baria Valejo - UFSCAR

Suplentes
Prof. Dr. Cristhof Johann Roosen Runge - FT/Unicamp
Dra. Solange Oliveira Rezende - USP
Prof. Dr. Maicon Sônego - UNIFEI

Local:  Sala de Defesa (Prédio da Pós-Graduação da FT) | https://stream.meet.google.com/stream/09e41c64-7c8c-4caf-85d4-2fd0777333ab

Resumo:  A similaridade musical insere-se no domínio da Music Information Retrieval (MIR), ou Recuperação de Informação Musical, cuja evolução foi impulsionada pela popularização da música digital. Trata-se de um campo interdisciplinar que aplica métodos computacionais para analisar, organizar, recuperar e recomendar conteúdos musicais a partir de sinais acústicos, metadados e informações contextuais. Neste trabalho, foram utilizados dois datasets: (1) um subconjunto da base MTG-Jamendo, composto por 18.486 faixas rotuladas em 59 categorias emocionais, em que uma mesma amostra pode apresentar múltiplos rótulos simultaneamente, caracterizando um problema multilabel; e (2) o dataset GTZAN, amplamente utilizado em tarefas de classificação automática de gênero musical, contendo
1.000 trechos de áudio com duração de 30 segundos, igualmente distribuídos entre 10 gêneros. Propõe-se um modelo híbrido (de fusão) de classificação musical, baseado na combinação de três abordagens complementares de extração de características: imagens de séries temporais, arquitetura VGGish e arquitetura OpenL3. A primeira abordagem extraiu quinze atributos do sinal de áudio, como Chroma CQT, Chroma STFT, Mel Spectrogram, Poly Features, Spectral Bandwidth, Spectral Flatness, MFCC, entre outros. Esses atributos foram representados como imagens de séries temporais por meio da técnica de Recurrence Plot (RP) e processados por redes neurais convolucionais pré-treinadas (DenseNet121, EfficientNetB0 e ResNet50), utilizando-se transfer learning para a extração de características. As métricas de desempenho foram avaliadas individualmente, sendo selecionadas as três melhores combinações para cada rede. Na segunda abordagem, foram extraídos embeddings diretamente dos sinais de áudio utilizando a arquitetura VGGish. Na terceira abordagem, os embeddings foram extraídos utilizando a arquitetura OpenL3. Após a avaliação individual de cada abordagem com classificadores supervisionados, procedeu-se à concatenação das características extraídas para a construção do modelo de fusão de classificadores final. Nesse processo, as características provenientes da abordagem de melhor desempenho foram fixadas, sendo posteriormente enriquecidas com combinações das demais abordagens, com o objetivo de aprimorar a acurácia e a robustez do modelo. Para o dataset GTZAN, o melhor desempenho foi obtido ao fixar as características extraídas pela arquitetura OpenL3, posteriormente enriquecidas com atributos oriundos das demais abordagens. Após o processo de seleção de atributos, a combinação entre OpenL3, VGGish e RP com ResNet50 alcançou uma acurácia de 85,5% com o algorítimo de regressão logística. Para o dataset MTG-Jamendo, o modelo final foi construído a partir da arquitetura de melhor desempenho individual (VGGish), enriquecida com características extraídas pelas demais abordagens, resultando em uma acurácia de 13,66% com o algorítimo Gaussian Naive Bayes.

Data: 
quarta-feira, 28 Maio, 2025 - 14:00