Name: | Description: | Size: | Format: | |
---|---|---|---|---|
3.98 MB | Adobe PDF |
Authors
Advisor(s)
Abstract(s)
Existe uma necessidade urgente de desenvolver métodos computacionais e infraestruturas
bioinformáticas para anotação de proteínas em larga escala que promovam a descoberta do
conhecimento biológico pois, os custos decrescentes e o rápido sequenciamento permitiram um
aumento da disponibilidade de sequências completas de genoma para muitos organismos. Para
perceber completamente o valor dos dados, os cientistas precisam de identificar as proteínas
codificadas por esses genomas e entender como essas proteínas funcionam. Esses dados são
enviados para vários repositórios públicos que se tornaram em bases de conhecimento biológico
indispensáveis para a pesquisa biomédica pois, fornecem dados em formatos de fácil acesso.
Neste projeto, apresentamos o SmartGeno - um protótipo que pretende auxiliar os cientistas na
tarefa de classificar a família de proteínas que, fornece um conjunto de pistas importantes para
sua estrutura, atividade e papel metabólico, permitindo a identificação de proteínas difíceis de
caracterizar, o que é fundamental para entender a natureza do universo das proteínas e da
biologia. O SmartGeno permite que o utilizador configure, treine e armazene modelos de
machine learning como àrvores de decisão, Random Forest e redes neuronais MLP que podem
ser usados posteriormente para classificar famílias de proteínas que devem ser submetidas na
plataforma usando um ficheiro FASTA. Usando um dataset com 42086 sequências proteicas
associadas a 34 famílias e uma representação vetorial das sequências construída a partir da
estrutura primária da proteína foi possível obter um F1Score = 88%, o que comprova que
modelos de machine learning como as Random Forest podem ser usadas com sucesso para
prever a família das proteínas. Este estudo também demonstra que técnicas de aprendizagem
profunda como as LSTM podem ser usadas com sucesso para essa tarefa, uma vez que
obtivemos um F1Score = 86% para o mesmo dataset, usando apenas as sequências proteicas
em bruto.
Description
Keywords
Anotação de proteínas Machine learning Classificação de proteínas Família de proteínas