Time-series GAN for longitudinal tabular data

Banha, Paulo Humberto Saragga de Melo

Publicação

Time-series GAN for longitudinal tabular data

2025-12-23Dissertação de mestrado

datacite.subject.fos	Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática
dc.contributor.advisor	Jardim, Sandra Maria Gonçalves Vilas Boas
dc.contributor.advisor	Miragaia, Rolando Lúcio Germano
dc.contributor.author	Banha, Paulo Humberto Saragga de Melo
dc.date.accessioned	2026-02-05T15:50:04Z
dc.date.available	2026-02-05T15:50:04Z
dc.date.issued	2025-12-23
dc.date.submitted	2026-02-05
dc.description.abstract	Este trabalho aborda as limitações fundamentais da fragilidade dos modelos de previsão clínica longitudinal e os enviesamentos causados pela escassez de dados e pelo desequilíbrio entre classes, inerentes aos registos sequenciais de doentes, recorrendo especificamente a um conjunto de dados limitado a apenas 117 registos. Apresenta uma metodologia integrada e uma validação empírica rigorosa que utiliza uma Rede Adversária Generativa para Séries Temporais (TimeGAN) para criar uma população sintética de doentes de elevada fidelidade, mitigando esta restrição extrema de dados. A implementação do TimeGAN preservou com sucesso a fidelidade estrutural e temporal, confirmada através de análises estatísticas (teste de Kolmogorov-Smirnov) e estruturais (projecção por PCA), um passo crucial para o treino de classificadores multi-classe robustos para a previsão de resultados em saúde. As trajetórias longitudinais sintéticas geradas, melhoradas por uma estratégia de balanceamento de classes imperfeita, mas benéfica, constituíram a base de um estudo comparativo que contrastou de forma rigorosa o desempenho de generalização de duas famílias de modelos: o Multi-Layer Perceptron (MLP) estático versus a rede sequencial Long Short-Term Memory (LSTM). Avaliados exclusivamente num conjunto de teste de doentes reais não vistos e reservado (T1), os resultados experimentais demonstraram que o modelo de base treinado apenas com dados reais limitados falhou de forma catastrófica (Macro F1- Score: 15,17%), validando empiricamente a necessidade de aumento de dados sintéticos através do TimeGAN. Em contraste, o modelo LSTM (M4), treinado com sequências sintéticas balanceadas, alcançou a melhor generalização em contexto real (Weighted F1-Score: 74,67%); os modelos MLP sobre ajustaram significativamente às características sintéticas estáticas, resultando numa generalização substancialmente inferior e confirmando a sua incapacidade de explorar a causalidade sequencial. Estes resultados validam a utilidade do TimeGAN na geração de dados tabulares longitudinais sintéticos fiáveis e estabelecem uma dependência arquitetónica crucial: a previsão multi-classe robusta requer não só um aumento de dados essencial, mas também um modelo sensível à sequência (LSTM) para explorar plenamente a fidelidade temporal preservada pelo enquadramento TimeGAN. Esta investigação oferece uma metodologia validada, de ponta a ponta, para acelerar a investigação em domínios clínicos de elevado valor e com dados limitados.	por
dc.identifier.tid	204180864
dc.identifier.uri	http://hdl.handle.net/10400.26/61494
dc.language.iso	por
dc.rights.uri	N/A
dc.title	Time-series GAN for longitudinal tabular data	por
dc.title.alternative	Validating synthetic data utility in multi-class healt prediction	por
dc.type	master thesis
dspace.entity.type	Publication
thesis.degree.grantor	Instituto Politécnico de Tomar
thesis.degree.name	Mestrado em Analítica e Inteligência Organizacional

Ficheiros

Principais

A mostrar 1 - 1 de 1

Nome:: Master Dissertation Paulo Banha 14837 Final.pdf
Tamanho:: 4.73 MB
Formato:: Adobe Portable Document Format

Ver/Abrir

Licença

A mostrar 1 - 1 de 1

Nome:: license.txt
Tamanho:: 1.85 KB
Formato:: Item-specific license agreed upon to submission
Descrição:

Ver/Abrir

Coleções

IPT - ESTT - Teses de Mestrado ou Doutoramento