Logo do repositório
 
A carregar...
Miniatura
Publicação

Machine learning-based assessment of mutational profiles in lung carcinoma

Utilize este identificador para referenciar este registo.
Nome:Descrição:Tamanho:Formato: 
RelatorioJoãoGraúdo.pdf1.41 MBAdobe PDF Ver/Abrir

Resumo(s)

This study aimed to develop machine learning models for automated prediction of overall survival and mutational status in advanced non-small cell lung cancer (NSCLC) patients with actionable molecular alterations. A retrospective cohort of 275 stage IV NSCLC patients from five hospitals in Southern Portugal (2016–2021) was analysed. Clinical, demographic, molecular, and therapeutic data were integrated into four supervised classification algorithms: Support Vector Machine (SVM), Random Forest (RF), eXtreme Gradient Boosting (XGBoost), and AdaBoost. Models were optimized using 10-fold stratified cross-validation with hyperparameter tuning via Grid Search. To address class imbalance, three complementary approaches were implemented: baseline modeling, Synthetic Minority Over-sampling Technique (SMOTE), and synthetic data augmentation using Conditional Tabular Generative Adversarial Network (CTGANSynthesizer). Performance was evaluated using accuracy, precision, recall, F1-score, and Area Under the Curve – Receiver Operating Characteristics (AUC-ROC) metrics. Results demonstrated that ensemble-based methods (RF, XGBoost, and AdaBoost) substantially outperformed SVM, particularly when trained on balanced datasets. The third approach, incorporating both synthetic data generation and SMOTE oversampling, yielded the highest discriminatory performance, with AdaBoost achieving an AUC-ROC of 0.9217. Correlation analysis revealed that Eastern Cooperative Oncology Group Performance Status (r=0.220), bone metastases (r=0.179), and sex (r=0.159) were the strongest positive predictors of mortality, while Epidermal Growth Factor Receptor (EGFR) exon 19 deletions (r=-0.140) demonstrated the most favorable prognostic association. The most prevalent molecular alteration was Kirsten Rat Sarcoma Virus (KRAS) G12C (35.64%), followed by EGFR mutations (14.91%) and Anaplastic Lymphoma Kinase (ALK) rearrangements (7.27%), consistent with European epidemiological data. This work demonstrates how machine learning tools can be valuable in predicting survival outcomes and personalizing treatments for patients with advanced NSCLC. Despite these advantages, there are still important challenges, such as the issue of data imbalance and the need to validate models in independent patient groups. Therefore, it is essential to maintain rigorous methodologies throughout the process. In the future, it will be important to test these models in different hospitals, integrate imaging data, and develop decision-support tools that are simple and transparent for healthcare professionals to use in their daily practice.
Este estudo teve como objetivo desenvolver modelos de aprendizagem automática para a predição automatizada da sobrevivência global e do estado mutacional em doentes com carcinoma do pulmão de não pequenas células (CPNPC) avançado com alterações moleculares acionáveis. Foi analisada uma coorte retrospetiva de 275 doentes com CPNPC em estádio IV provenientes de cinco hospitais do Sul de Portugal (2016–2021). Dados clínicos, demográficos, moleculares e terapêuticos foram integrados em quatro algoritmos de classificação supervisionada: Support Vector Machine (SVM), Random Forest (RF), eXtreme Gradient Boosting (XGBoost) e AdaBoost. Os modelos foram otimizados utilizando validação cruzada estratificada de 10 folds com afinação de hiperparâmetros através de Grid Search. Para abordar o desequilíbrio de classes, foram implementadas três abordagens complementares: modelação baseline, técnica Synthetic Minority Over-sampling Technique (SMOTE) e aumento de dados sintéticos utilizando Conditional Tabular Generative Adversarial Network (CTGANSynthesizer). O desempenho foi avaliado utilizando as métricas de exatidão, precisão, recall, F1-score e Área sob a Curva Característica Operacional do Recetor (AUC-ROC). Os resultados demonstraram que os métodos baseados em ensembles (RF, XGBoost e AdaBoost) superaram substancialmente o SVM, particularmente quando treinados em conjuntos de dados balanceados. A terceira abordagem, incorporando tanto a geração de dados sintéticos como o oversampling com SMOTE, obteve o desempenho discriminativo mais elevado, com o AdaBoost a atingir uma AUC-ROC de 0,9217. A análise de correlação revelou que o Performance Status do Eastern Cooperative Oncology Group Performance Status (r=0,220), as metástases ósseas (r=0,179) e o sexo (r=0,159) foram os preditores positivos mais fortes de mortalidade, enquanto as deleções no exão 19 do Receptor do Fator de Crescimento Epidérmico (EGFR) (r=-0,140) demonstraram a associação prognóstica mais favorável. A alteração molecular mais prevalente foi a Kirsten Rat Sarcoma Virus (KRAS) G12C (35,64%), seguida das mutações EGFR (14,91%) e das rearranjos Anaplastic Lymphoma Kinase (ALK) (7,27%), consistente com dados epidemiológicos europeus. Este trabalho demonstra como as ferramentas de aprendizagem automática podem ser valiosas na predição de resultados de sobrevivência e na personalização de tratamentos para doentes com CPNPC avançado. Apesar destas vantagens, persistem desafios importantes, como o problema do desequilíbrio de dados e a necessidade de validar os modelos em grupos independentes de doentes. Portanto, é essencial manter metodologias rigorosas ao longo de todo o processo. No futuro, será importante testar estes modelos em diferentes hospitais, integrar dados de imagem e desenvolver ferramentas de apoio à decisão simples e transparentes para uso quotidiano pelos profissionais de saúde.

Descrição

Palavras-chave

Machine learning Survival prediction Lung cancer Molecular alterations Precision medicine Aprendizagem automática Previsão de sobrevivência Cancro do Pulmão Alterações moleculares Medicina de precisão

Contexto Educativo

Citação

Projetos de investigação

Unidades organizacionais

Fascículo