Repository logo
 
No Thumbnail Available
Publication

MER: Estudo e restruturação de um sistema de reconhecimento emocional em música áudio usando o YouTube

Use this identifier to reference this record.
Name:Description:Size:Format: 
MEI-IoT - Relatorio Tiago António_Final.pdf4.04 MBAdobe PDF Download

Advisor(s)

Abstract(s)

O Reconhecimento de Emoções em Música (MER) é uma área de investigação recente, derivada da área de Recuperação de Informações em Música (MIR), que tem vindo a ganhar importância ao longo dos anos. A música está presente na história do ser humano desde que há memória, sendo utilizada nas mais diversas situações, desde entretenimento até fins mais sérios, como na medicina. Não é novidade que a música está intimamente ligada às emoções, sendo utilizada para as transmitir aos ouvintes, podendo manifestar-se de diferentes modos a nível físico e psicológico. Embora os mecanismos que relacionam a música e a emoção sejam ainda hoje bastante incompreendidos, existe vontade por parte dos investigadores da área em melhor compreender estas relações e do ponto de vista mais prático, criar sistemas que consigam identificar as emoções presentes nas músicas. O processo de identificação de emoções em sinais musicais utilizando abordagens automatizadas é deveras complexo, demorado e delicado, ligando várias áreas de conhecimento, como a psicologia, onde estão abrangidas as emoções, a área de computação, onde é realizado todo o processamento de sinal e a classificação de emoções, ou ainda a necessidade de ter alguns conhecimentos gerais sobre teoria musical. A quantidade de plataformas que atualmente demonstra este conceito é mínima, sendo na sua maioria provas de conceito com fins académicos. Neste trabalho foi desenvolvido um sistema robusto e escalável de MER, capaz de fazer o reconhecimento de emoções transmitidas em música, adaptando o modelo emocional de Russell para quatro classes: alegre, tensa, triste e calma. Este sistema partiu das lições retiradas de uma prova-de-conceito criada num projeto anterior, cuja finalidade foi perceber a exequibilidade de combinar uma abordagem MER com conceitos avançados de desenvolvimento de software. Desta, foi apenas aproveitada uma parte da aplicação web, sendo refeita toda a lógica de reconhecimento emocional, aumentando significativamente a complexidade e capacidade do sistema.O sistema atual integra vários conceitos do estado de arte na área de MER para áudio e letras de músicas (lyrics), utilizando a plataforma YouTube com fonte principal de dados. Foi treinado um classificador para a componente da letra, que permite prever uma única emoção para a letra musical através de caraterísticas extraídas da mesma. Foram desenvolvidos quatro classificadores distintos para a componente de áudio, que permitem obter múltiplas emoções para uma mesma música áudio completa, devolvendo ainda assim uma única classe por excerto. Para isto foram implementados mecanismos de separação de fontes, dividindo o áudio original em elementos musicais de voz e acompanhamento, originando três fontes de áudio (original, vocal, acompanhamento). Estas três fontes foram ainda segmentadas em excertos de 30 segundos e convertidas para mono. Esta opção teve como objetivo replicar a configuração típica de MER, em concordância com a literatura que serviu de base. Todos os excertos obtidos são classificados individualmente em uma das quatro classes, utilizando máquinas de vetores de suporte (SVMs) treinados com as caraterísticas dos áudios, extraídas através da ferramenta Essentia. As caraterísticas musicais que foram utilizadas variam entre os classificadores, pois foram utilizados algoritmos de seleção e ranking para selecionar as que mais se adequavam para cada caso específico. Os resultados obtidos pelos classificadores foram satisfatórios, com um F1-score máximo de 70,5% para o áudio, utilizando 380 características, e 66,6% para a letra, com apenas 85 características. Estes valores estão em linha com os valores baseline do artigo que nos serviu de base (áudio), onde foram obtidos 67,5% e 71,7% com 70 e 800 características respetivamente. De destacar que aqui foi usada apenas uma framework áudio, com uma eficiência computacional muito superior às académicas. Como trabalho futuro, seria interessante testar características adicionais, mais relevantes em termos musicológicos, ou ainda abordagens recentes como aprendizagem profunda. Todas estas as funcionalidades foram desenvolvidas em pequenos serviços isolados e independentes, seguindo uma arquitetura de microsserviços, criando um sistema mais tolerante a falhas, escalável e robusto. Estes serviços serão posteriormente integrados num trabalho a ocorrer em paralelo cujo foco é a orquestração de serviços da solução final de MER

Description

Keywords

Reconhecimento de emoção em música Emoções Áudio Lírica Separação de fontes Aprendizagem computacional Microsserviços.

Citation

Research Projects

Organizational Units

Journal Issue