Publication
Desenvolvimento de uma plataforma para classificação inteligente de famílias de proteínas
dc.contributor.advisor | Pereira, Carlos Manuel Jorge da Silva | |
dc.contributor.author | Lucas, Hugo David Duarte | |
dc.date.accessioned | 2023-08-30T15:56:59Z | |
dc.date.available | 2023-08-30T15:56:59Z | |
dc.date.issued | 2021-05-20 | |
dc.date.submitted | 2021-02-10 | |
dc.description.abstract | Existe uma necessidade urgente de desenvolver métodos computacionais e infraestruturas bioinformáticas para anotação de proteínas em larga escala que promovam a descoberta do conhecimento biológico pois, os custos decrescentes e o rápido sequenciamento permitiram um aumento da disponibilidade de sequências completas de genoma para muitos organismos. Para perceber completamente o valor dos dados, os cientistas precisam de identificar as proteínas codificadas por esses genomas e entender como essas proteínas funcionam. Esses dados são enviados para vários repositórios públicos que se tornaram em bases de conhecimento biológico indispensáveis para a pesquisa biomédica pois, fornecem dados em formatos de fácil acesso. Neste projeto, apresentamos o SmartGeno - um protótipo que pretende auxiliar os cientistas na tarefa de classificar a família de proteínas que, fornece um conjunto de pistas importantes para sua estrutura, atividade e papel metabólico, permitindo a identificação de proteínas difíceis de caracterizar, o que é fundamental para entender a natureza do universo das proteínas e da biologia. O SmartGeno permite que o utilizador configure, treine e armazene modelos de machine learning como àrvores de decisão, Random Forest e redes neuronais MLP que podem ser usados posteriormente para classificar famílias de proteínas que devem ser submetidas na plataforma usando um ficheiro FASTA. Usando um dataset com 42086 sequências proteicas associadas a 34 famílias e uma representação vetorial das sequências construída a partir da estrutura primária da proteína foi possível obter um F1Score = 88%, o que comprova que modelos de machine learning como as Random Forest podem ser usadas com sucesso para prever a família das proteínas. Este estudo também demonstra que técnicas de aprendizagem profunda como as LSTM podem ser usadas com sucesso para essa tarefa, uma vez que obtivemos um F1Score = 86% para o mesmo dataset, usando apenas as sequências proteicas em bruto. | pt_PT |
dc.identifier.tid | 203003497 | pt_PT |
dc.identifier.uri | http://hdl.handle.net/10400.26/46227 | |
dc.language.iso | por | pt_PT |
dc.subject | Anotação de proteínas | pt_PT |
dc.subject | Machine learning | pt_PT |
dc.subject | Classificação de proteínas | pt_PT |
dc.subject | Família de proteínas | pt_PT |
dc.title | Desenvolvimento de uma plataforma para classificação inteligente de famílias de proteínas | pt_PT |
dc.type | master thesis | |
dspace.entity.type | Publication | |
rcaap.rights | openAccess | pt_PT |
rcaap.type | masterThesis | pt_PT |