Logo do repositório
 
Publicação

Machine learning-based assessment of mutational profiles in lung carcinoma

dc.contributor.advisorLópez, Miguel
dc.contributor.advisorAlbuquerque, Joana
dc.contributor.authorGraúdo, João Rafael Vieira
dc.date.accessioned2026-01-22T15:14:04Z
dc.date.available2026-01-22T15:14:04Z
dc.date.issued2025-12
dc.description.abstractThis study aimed to develop machine learning models for automated prediction of overall survival and mutational status in advanced non-small cell lung cancer (NSCLC) patients with actionable molecular alterations. A retrospective cohort of 275 stage IV NSCLC patients from five hospitals in Southern Portugal (2016–2021) was analysed. Clinical, demographic, molecular, and therapeutic data were integrated into four supervised classification algorithms: Support Vector Machine (SVM), Random Forest (RF), eXtreme Gradient Boosting (XGBoost), and AdaBoost. Models were optimized using 10-fold stratified cross-validation with hyperparameter tuning via Grid Search. To address class imbalance, three complementary approaches were implemented: baseline modeling, Synthetic Minority Over-sampling Technique (SMOTE), and synthetic data augmentation using Conditional Tabular Generative Adversarial Network (CTGANSynthesizer). Performance was evaluated using accuracy, precision, recall, F1-score, and Area Under the Curve – Receiver Operating Characteristics (AUC-ROC) metrics. Results demonstrated that ensemble-based methods (RF, XGBoost, and AdaBoost) substantially outperformed SVM, particularly when trained on balanced datasets. The third approach, incorporating both synthetic data generation and SMOTE oversampling, yielded the highest discriminatory performance, with AdaBoost achieving an AUC-ROC of 0.9217. Correlation analysis revealed that Eastern Cooperative Oncology Group Performance Status (r=0.220), bone metastases (r=0.179), and sex (r=0.159) were the strongest positive predictors of mortality, while Epidermal Growth Factor Receptor (EGFR) exon 19 deletions (r=-0.140) demonstrated the most favorable prognostic association. The most prevalent molecular alteration was Kirsten Rat Sarcoma Virus (KRAS) G12C (35.64%), followed by EGFR mutations (14.91%) and Anaplastic Lymphoma Kinase (ALK) rearrangements (7.27%), consistent with European epidemiological data. This work demonstrates how machine learning tools can be valuable in predicting survival outcomes and personalizing treatments for patients with advanced NSCLC. Despite these advantages, there are still important challenges, such as the issue of data imbalance and the need to validate models in independent patient groups. Therefore, it is essential to maintain rigorous methodologies throughout the process. In the future, it will be important to test these models in different hospitals, integrate imaging data, and develop decision-support tools that are simple and transparent for healthcare professionals to use in their daily practice.eng
dc.description.abstractEste estudo teve como objetivo desenvolver modelos de aprendizagem automática para a predição automatizada da sobrevivência global e do estado mutacional em doentes com carcinoma do pulmão de não pequenas células (CPNPC) avançado com alterações moleculares acionáveis. Foi analisada uma coorte retrospetiva de 275 doentes com CPNPC em estádio IV provenientes de cinco hospitais do Sul de Portugal (2016–2021). Dados clínicos, demográficos, moleculares e terapêuticos foram integrados em quatro algoritmos de classificação supervisionada: Support Vector Machine (SVM), Random Forest (RF), eXtreme Gradient Boosting (XGBoost) e AdaBoost. Os modelos foram otimizados utilizando validação cruzada estratificada de 10 folds com afinação de hiperparâmetros através de Grid Search. Para abordar o desequilíbrio de classes, foram implementadas três abordagens complementares: modelação baseline, técnica Synthetic Minority Over-sampling Technique (SMOTE) e aumento de dados sintéticos utilizando Conditional Tabular Generative Adversarial Network (CTGANSynthesizer). O desempenho foi avaliado utilizando as métricas de exatidão, precisão, recall, F1-score e Área sob a Curva Característica Operacional do Recetor (AUC-ROC). Os resultados demonstraram que os métodos baseados em ensembles (RF, XGBoost e AdaBoost) superaram substancialmente o SVM, particularmente quando treinados em conjuntos de dados balanceados. A terceira abordagem, incorporando tanto a geração de dados sintéticos como o oversampling com SMOTE, obteve o desempenho discriminativo mais elevado, com o AdaBoost a atingir uma AUC-ROC de 0,9217. A análise de correlação revelou que o Performance Status do Eastern Cooperative Oncology Group Performance Status (r=0,220), as metástases ósseas (r=0,179) e o sexo (r=0,159) foram os preditores positivos mais fortes de mortalidade, enquanto as deleções no exão 19 do Receptor do Fator de Crescimento Epidérmico (EGFR) (r=-0,140) demonstraram a associação prognóstica mais favorável. A alteração molecular mais prevalente foi a Kirsten Rat Sarcoma Virus (KRAS) G12C (35,64%), seguida das mutações EGFR (14,91%) e das rearranjos Anaplastic Lymphoma Kinase (ALK) (7,27%), consistente com dados epidemiológicos europeus. Este trabalho demonstra como as ferramentas de aprendizagem automática podem ser valiosas na predição de resultados de sobrevivência e na personalização de tratamentos para doentes com CPNPC avançado. Apesar destas vantagens, persistem desafios importantes, como o problema do desequilíbrio de dados e a necessidade de validar os modelos em grupos independentes de doentes. Portanto, é essencial manter metodologias rigorosas ao longo de todo o processo. No futuro, será importante testar estes modelos em diferentes hospitais, integrar dados de imagem e desenvolver ferramentas de apoio à decisão simples e transparentes para uso quotidiano pelos profissionais de saúde.por
dc.identifier.tid204121388
dc.identifier.urihttp://hdl.handle.net/10400.26/61129
dc.language.isoeng
dc.rights.urihttp://creativecommons.org/licenses/by/4.0/
dc.subjectMachine learning
dc.subjectSurvival prediction
dc.subjectLung cancer
dc.subjectMolecular alterations
dc.subjectPrecision medicine
dc.subjectAprendizagem automática
dc.subjectPrevisão de sobrevivência
dc.subjectCancro do Pulmão
dc.subjectAlterações moleculares
dc.subjectMedicina de precisão
dc.titleMachine learning-based assessment of mutational profiles in lung carcinomaeng
dc.typemaster thesis
dspace.entity.typePublication
thesis.degree.grantorInstituto Politécnico de Setúbal
thesis.degree.nameMestrado em Engenharia Biomédica

Ficheiros

Principais
A mostrar 1 - 1 de 1
A carregar...
Miniatura
Nome:
RelatorioJoãoGraúdo.pdf
Tamanho:
1.41 MB
Formato:
Adobe Portable Document Format
Licença
A mostrar 1 - 1 de 1
Miniatura indisponível
Nome:
license.txt
Tamanho:
1.85 KB
Formato:
Item-specific license agreed upon to submission
Descrição: