Repository logo
 
Publication

Desenvolvimento de uma plataforma para classificação inteligente de famílias de proteínas

dc.contributor.advisorPereira, Carlos Manuel Jorge da Silva
dc.contributor.authorLucas, Hugo David Duarte
dc.date.accessioned2023-08-30T15:56:59Z
dc.date.available2023-08-30T15:56:59Z
dc.date.issued2021-05-20
dc.date.submitted2021-02-10
dc.description.abstractExiste uma necessidade urgente de desenvolver métodos computacionais e infraestruturas bioinformáticas para anotação de proteínas em larga escala que promovam a descoberta do conhecimento biológico pois, os custos decrescentes e o rápido sequenciamento permitiram um aumento da disponibilidade de sequências completas de genoma para muitos organismos. Para perceber completamente o valor dos dados, os cientistas precisam de identificar as proteínas codificadas por esses genomas e entender como essas proteínas funcionam. Esses dados são enviados para vários repositórios públicos que se tornaram em bases de conhecimento biológico indispensáveis para a pesquisa biomédica pois, fornecem dados em formatos de fácil acesso. Neste projeto, apresentamos o SmartGeno - um protótipo que pretende auxiliar os cientistas na tarefa de classificar a família de proteínas que, fornece um conjunto de pistas importantes para sua estrutura, atividade e papel metabólico, permitindo a identificação de proteínas difíceis de caracterizar, o que é fundamental para entender a natureza do universo das proteínas e da biologia. O SmartGeno permite que o utilizador configure, treine e armazene modelos de machine learning como àrvores de decisão, Random Forest e redes neuronais MLP que podem ser usados posteriormente para classificar famílias de proteínas que devem ser submetidas na plataforma usando um ficheiro FASTA. Usando um dataset com 42086 sequências proteicas associadas a 34 famílias e uma representação vetorial das sequências construída a partir da estrutura primária da proteína foi possível obter um F1Score = 88%, o que comprova que modelos de machine learning como as Random Forest podem ser usadas com sucesso para prever a família das proteínas. Este estudo também demonstra que técnicas de aprendizagem profunda como as LSTM podem ser usadas com sucesso para essa tarefa, uma vez que obtivemos um F1Score = 86% para o mesmo dataset, usando apenas as sequências proteicas em bruto.pt_PT
dc.identifier.tid203003497pt_PT
dc.identifier.urihttp://hdl.handle.net/10400.26/46227
dc.language.isoporpt_PT
dc.subjectAnotação de proteínaspt_PT
dc.subjectMachine learningpt_PT
dc.subjectClassificação de proteínaspt_PT
dc.subjectFamília de proteínaspt_PT
dc.titleDesenvolvimento de uma plataforma para classificação inteligente de famílias de proteínaspt_PT
dc.typemaster thesis
dspace.entity.typePublication
rcaap.rightsopenAccesspt_PT
rcaap.typemasterThesispt_PT

Files

Original bundle
Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
Hugo-David-Duarte-Lucas.pdf
Size:
3.98 MB
Format:
Adobe Portable Document Format
License bundle
Now showing 1 - 1 of 1
No Thumbnail Available
Name:
license.txt
Size:
1.85 KB
Format:
Item-specific license agreed upon to submission
Description: