Name: | Description: | Size: | Format: | |
---|---|---|---|---|
4.04 MB | Adobe PDF |
Authors
Advisor(s)
Abstract(s)
O Reconhecimento de Emoções em Música (MER) é uma área de investigação recente,
derivada da área de Recuperação de Informações em Música (MIR), que tem vindo a ganhar
importância ao longo dos anos. A música está presente na história do ser humano desde que
há memória, sendo utilizada nas mais diversas situações, desde entretenimento até fins mais
sérios, como na medicina. Não é novidade que a música está intimamente ligada às emoções,
sendo utilizada para as transmitir aos ouvintes, podendo manifestar-se de diferentes modos a
nível físico e psicológico. Embora os mecanismos que relacionam a música e a emoção sejam
ainda hoje bastante incompreendidos, existe vontade por parte dos investigadores da área em
melhor compreender estas relações e do ponto de vista mais prático, criar sistemas que
consigam identificar as emoções presentes nas músicas.
O processo de identificação de emoções em sinais musicais utilizando abordagens
automatizadas é deveras complexo, demorado e delicado, ligando várias áreas de
conhecimento, como a psicologia, onde estão abrangidas as emoções, a área de computação,
onde é realizado todo o processamento de sinal e a classificação de emoções, ou ainda a
necessidade de ter alguns conhecimentos gerais sobre teoria musical. A quantidade de
plataformas que atualmente demonstra este conceito é mínima, sendo na sua maioria provas
de conceito com fins académicos.
Neste trabalho foi desenvolvido um sistema robusto e escalável de MER, capaz de fazer o
reconhecimento de emoções transmitidas em música, adaptando o modelo emocional de
Russell para quatro classes: alegre, tensa, triste e calma. Este sistema partiu das lições retiradas
de uma prova-de-conceito criada num projeto anterior, cuja finalidade foi perceber a
exequibilidade de combinar uma abordagem MER com conceitos avançados de
desenvolvimento de software. Desta, foi apenas aproveitada uma parte da aplicação web,
sendo refeita toda a lógica de reconhecimento emocional, aumentando significativamente a
complexidade e capacidade do sistema.O sistema atual integra vários conceitos do estado de arte na área de MER para áudio e letras
de músicas (lyrics), utilizando a plataforma YouTube com fonte principal de dados. Foi
treinado um classificador para a componente da letra, que permite prever uma única emoção
para a letra musical através de caraterísticas extraídas da mesma. Foram desenvolvidos quatro
classificadores distintos para a componente de áudio, que permitem obter múltiplas emoções
para uma mesma música áudio completa, devolvendo ainda assim uma única classe por
excerto. Para isto foram implementados mecanismos de separação de fontes, dividindo o áudio
original em elementos musicais de voz e acompanhamento, originando três fontes de áudio
(original, vocal, acompanhamento). Estas três fontes foram ainda segmentadas em excertos de
30 segundos e convertidas para mono. Esta opção teve como objetivo replicar a configuração
típica de MER, em concordância com a literatura que serviu de base. Todos os excertos obtidos
são classificados individualmente em uma das quatro classes, utilizando máquinas de vetores
de suporte (SVMs) treinados com as caraterísticas dos áudios, extraídas através da ferramenta
Essentia. As caraterísticas musicais que foram utilizadas variam entre os classificadores, pois
foram utilizados algoritmos de seleção e ranking para selecionar as que mais se adequavam
para cada caso específico.
Os resultados obtidos pelos classificadores foram satisfatórios, com um F1-score máximo de
70,5% para o áudio, utilizando 380 características, e 66,6% para a letra, com apenas 85
características. Estes valores estão em linha com os valores baseline do artigo que nos serviu
de base (áudio), onde foram obtidos 67,5% e 71,7% com 70 e 800 características
respetivamente. De destacar que aqui foi usada apenas uma framework áudio, com uma
eficiência computacional muito superior às académicas. Como trabalho futuro, seria
interessante testar características adicionais, mais relevantes em termos musicológicos, ou
ainda abordagens recentes como aprendizagem profunda.
Todas estas as funcionalidades foram desenvolvidas em pequenos serviços isolados e
independentes, seguindo uma arquitetura de microsserviços, criando um sistema mais
tolerante a falhas, escalável e robusto. Estes serviços serão posteriormente integrados num
trabalho a ocorrer em paralelo cujo foco é a orquestração de serviços da solução final de MER
Description
Keywords
Reconhecimento de emoção em música Emoções Áudio Lírica Separação de fontes Aprendizagem computacional Microsserviços.