| Nome: | Descrição: | Tamanho: | Formato: | |
|---|---|---|---|---|
| 4.73 MB | Adobe PDF |
Resumo(s)
Este trabalho aborda as limitações fundamentais da fragilidade dos modelos de previsão
clínica longitudinal e os enviesamentos causados pela escassez de dados e pelo desequilíbrio
entre classes, inerentes aos registos sequenciais de doentes, recorrendo especificamente a
um conjunto de dados limitado a apenas 117 registos. Apresenta uma metodologia integrada
e uma validação empírica rigorosa que utiliza uma Rede Adversária Generativa para Séries
Temporais (TimeGAN) para criar uma população sintética de doentes de elevada fidelidade,
mitigando esta restrição extrema de dados. A implementação do TimeGAN preservou com
sucesso a fidelidade estrutural e temporal, confirmada através de análises estatísticas (teste
de Kolmogorov-Smirnov) e estruturais (projecção por PCA), um passo crucial para o treino de
classificadores multi-classe robustos para a previsão de resultados em saúde.
As trajetórias longitudinais sintéticas geradas, melhoradas por uma estratégia de
balanceamento de classes imperfeita, mas benéfica, constituíram a base de um estudo
comparativo que contrastou de forma rigorosa o desempenho de generalização de duas
famílias de modelos: o Multi-Layer Perceptron (MLP) estático versus a rede sequencial Long
Short-Term Memory (LSTM). Avaliados exclusivamente num conjunto de teste de doentes
reais não vistos e reservado (T1), os resultados experimentais demonstraram que o modelo
de base treinado apenas com dados reais limitados falhou de forma catastrófica (Macro F1-
Score: 15,17%), validando empiricamente a necessidade de aumento de dados sintéticos
através do TimeGAN. Em contraste, o modelo LSTM (M4), treinado com sequências sintéticas
balanceadas, alcançou a melhor generalização em contexto real (Weighted F1-Score:
74,67%); os modelos MLP sobre ajustaram significativamente às características sintéticas
estáticas, resultando numa generalização substancialmente inferior e confirmando a sua
incapacidade de explorar a causalidade sequencial.
Estes resultados validam a utilidade do TimeGAN na geração de dados tabulares
longitudinais sintéticos fiáveis e estabelecem uma dependência arquitetónica crucial: a
previsão multi-classe robusta requer não só um aumento de dados essencial, mas também
um modelo sensível à sequência (LSTM) para explorar plenamente a fidelidade temporal
preservada pelo enquadramento TimeGAN. Esta investigação oferece uma metodologia
validada, de ponta a ponta, para acelerar a investigação em domínios clínicos de elevado
valor e com dados limitados.
