Rocha, JoséCatalino, Catarina Alexandra dos Santos Cantante Martins2026-01-192026-01-192025-12http://hdl.handle.net/10400.26/60973As doenças cardiovasculares (DCV) continuam a ser uma das principais causas de mortalidade a nível mundial, tornando essencial o desenvolvimento de métodos automáticos que apoiem o diagnóstico precoce. A análise de sons cardíacos é bastante utilizada na prática clínica por ser um método não invasivo, económico e de elevada relevância diagnóstica. No entanto, a interpretação da auscultação depende da experiência do examinador e é frequentemente afetada por ruído ambiental, variabilidade acústica e limitações na perceção de sons patológicos, o que pode conduzir a erros de diagnóstico. Neste contexto, este trabalho apresenta o desenvolvimento de um sistema de classificação automática de sons cardíacos baseado em deep learning, utilizando redes neuronais convolucionais (CNN) aplicadas a representações tempo-frequência obtidas através da Transformada de Fourier de Curta Duração (STFT). Foram desenvolvidas duas abordagens distintas: uma para a classificação dos eventos fundamentais do ciclo cardíaco (S1, S2, sístole e diástole) e outra para a deteção binária entre sons normais e patológicos. Os sinais PCG da base de dados pública PhysioNet/CinC Challenge 2016 foram segmentados em janelas de eventos em segmentos de 2 segundos, a partir dos quais foram criados espectrogramas STFT, utilizados como entrada para diferentes arquiteturas de CNN. Para mitigar o desequilíbrio entre classes e aumentar a robustez do modelo, foram aplicadas técnicas de data augmentation, nomeadamente additive noise e pitch shifting. Foram avaliados quatro modelos CNN, integrados com funções de ativação ReLU e GELU aplicadas entre as diferentes camadas, e ajustadas progressivamente através de sucessivas iterações de otimização de hiperparâmetros. O melhor modelo alcançou uma accuracy de 91,35%, um recall de 84,97%, uma precisão de 81,18%, uma especificidade de 93,47% e um F1-score de 83,43% na tarefa de classificação binária. Estes resultados superam abordagens tradicionais baseadas na extração manual de características e aproximam-se do desempenho de arquiteturas mais avançadas que realizam a extração automática de características de forma end-to-end através de redes convolucionais, tal como reportado na literatura.Cardiovascular diseases (CVDs) remain one of the leading causes of mortality worldwide, highlighting the need for automatic methods that support early diagnosis. Heart sound analysis is widely used in clinical practice due to its non-invasive, low-cost nature and diagnostic relevance. However, auscultation is highly dependent on the examiner’s experience and can be affected by environmental noise, acoustic variability and the subtle perception of pathological sounds, which may lead to diagnostic inaccuracies. In this context, this work presents the development of an automatic heart sound classification system based on deep learning, using convolutional neural networks (CNN) applied to time–frequency representations obtained through the Short-Time Fourier Transform (STFT). Two distinct approaches were explored: one for the classification of the fundamental cardiac cycle events (S1, S2, systole and diastole) and another for binary discrimination between normal and pathological heart sounds. PCG signals from the public PhysioNet/CinC Challenge 2016 dataset were segmented into event windows and into fixed 2-second segments, from which STFT spectrograms were generated and used as input for different CNN architectures. To mitigate class imbalance and increase model robustness, data augmentation techniques were applied, namely additive noise and pitch shifting. Four CNN models were evaluated, incorporating activation functions ReLU and GELU inserted between convolutional and dense layers, and progressively refined through iterative hyperparameter tuning. The best-performing model achieved an accuracy of 91.35%, recall of 84.97%, precision of 81.18%, specificity of 93.47% and an F1-score of 83.43% in binary classification. The best-performing model achieved an accuracy of 91.35%, recall of 84.97%, precision of 81.18%, specificity of 93.47% and an F1-score of 83.43% in binary classification. These results outperform traditional approaches based on handcrafted feature extraction, and approach the performance of more advanced end-to-end models that extract features automatically through convolutional architectures, as reported in the state of the art.engFonocardiogramaClassificação de sons cardíacosCaracterísticas tempo-frequênciaRede Neuronal ConvolucionalPhonocardiogramHeart sound classificationTime-frequency featuresConvolutional Neural NetworkTheoretical study of multiple heart sounds and identification using deep learningmaster thesis204121132