Generative AI for human microbiome classification

Pereira, Carlos Manuel Jorge da SilvaFonseca, Rafael Margarido2026-03-252026-03-252026-02-12http://hdl.handle.net/10400.26/62452A aprendizagem automática tem ganho importância na identificação de padrões em dados biológicos complexos mas a sua aplicação em estudos do microbioma ainda enfrenta vários desafios. Os conjuntos de dados microbiológicos tendem a ser reduzidos, ruidosos e desequilibrados, o que dificulta o treino de modelos fiáveis. Neste trabalho uma "pipeline" unificada de aprendizagem automática foi desenvolvida para investigar como estratégias de balanceamento e técnicas generativas podem aumentar a diversidade dos dados e melhorar a estabilidade dos modelos. A "pipeline" foi aplicada a seis conjuntos de dados públicos do microbioma intestinal: dois relacionados com a diabetes tipo 2 e quatro outras condições — obesidade, hipertensão, artrite reumatoide e COVID-19. Normalizámos a abundância ao nível das espécies, integrámos os metadados disponíveis e treinámos vários modelos clássicos, de "ensemble" e redes neuronais. Os resultados obtidos mostram que os perfis do microbioma contêm informação suficiente para distinguir indivíduos com diferentes patologias, embora a robustez dos modelos varie entre fenótipos. Em várias patologias, como a obesidade e o COVID-19, os modelos mantêm um desempenho consistente entre validação e teste, enquanto noutros casos, como a Artrite Reumatoide, observa-se uma quebra clara de generalização. Para facilitar a análise e reutilização destes modelos, foi também desenvolvida uma aplicação web que permite treinar e testas modelos bem como consultar métricas. No fim, este trabalho ilustra como técnicas de aprendizagem automática e métodos generativos podem apoiar a investigação do microbioma humano e contribuir para estratégias mais precoces de avaliação de risco de diversas patologias.Machine learning is increasingly used to uncover patterns in complex biological data, but applying it’s application to microbiome studies comes with several challenges. Microbiome datasets are often small, noisy, and imbalanced, which hinders with the training of reliable models. In this work a unified machine learning pipeline was designed to handle these issues and explored how balancing and generative strategies can improve data diversity and model stability. The pipeline was applied to six publicly available gut microbiome datasets — two for type 2 diabetes and four other phenotypes - obesity, hypertension, rheumatoid arthritis, and COVID-19. Species-level abundance profiles were standardized, available metadata integrated and multiple classical, ensemble and neural models were trained and evaluated under different configurations. The results show that microbial profiles have enough biological information to distinguish individuals with different phenotypes but the robustness of the models varies across different conditions. In certain conditions, such as Obesity and COVID-19 models maintain a good performance in both the training and test however in other conditions such as Rheumatoid Arthritis, there is a clear gap in generalization. To enable analysis and model reuse, a web app was developed that allows for model training, testing and results analysis. In the end, this work illustrates how machine learning techniques and generative methods can assist in human microbiome investigation and contribute to early disease prediction techniques.engAprendizagem automáticaAprendizagem profundaInteligência artificial generativaClassificação de doençasMicrobioma intestinalGenerative AI for human microbiome classificationmaster thesis204216478