Desenvolvimento de uma plataforma para classificação inteligente de famílias de proteínas

Lucas, Hugo David Duarte

Publicação

Desenvolvimento de uma plataforma para classificação inteligente de famílias de proteínas

2021-05-20Dissertação de mestrado

dc.contributor.advisor	Pereira, Carlos Manuel Jorge da Silva
dc.contributor.author	Lucas, Hugo David Duarte
dc.date.accessioned	2023-08-30T15:56:59Z
dc.date.available	2023-08-30T15:56:59Z
dc.date.issued	2021-05-20
dc.date.submitted	2021-02-10
dc.description.abstract	Existe uma necessidade urgente de desenvolver métodos computacionais e infraestruturas bioinformáticas para anotação de proteínas em larga escala que promovam a descoberta do conhecimento biológico pois, os custos decrescentes e o rápido sequenciamento permitiram um aumento da disponibilidade de sequências completas de genoma para muitos organismos. Para perceber completamente o valor dos dados, os cientistas precisam de identificar as proteínas codificadas por esses genomas e entender como essas proteínas funcionam. Esses dados são enviados para vários repositórios públicos que se tornaram em bases de conhecimento biológico indispensáveis para a pesquisa biomédica pois, fornecem dados em formatos de fácil acesso. Neste projeto, apresentamos o SmartGeno - um protótipo que pretende auxiliar os cientistas na tarefa de classificar a família de proteínas que, fornece um conjunto de pistas importantes para sua estrutura, atividade e papel metabólico, permitindo a identificação de proteínas difíceis de caracterizar, o que é fundamental para entender a natureza do universo das proteínas e da biologia. O SmartGeno permite que o utilizador configure, treine e armazene modelos de machine learning como àrvores de decisão, Random Forest e redes neuronais MLP que podem ser usados posteriormente para classificar famílias de proteínas que devem ser submetidas na plataforma usando um ficheiro FASTA. Usando um dataset com 42086 sequências proteicas associadas a 34 famílias e uma representação vetorial das sequências construída a partir da estrutura primária da proteína foi possível obter um F1Score = 88%, o que comprova que modelos de machine learning como as Random Forest podem ser usadas com sucesso para prever a família das proteínas. Este estudo também demonstra que técnicas de aprendizagem profunda como as LSTM podem ser usadas com sucesso para essa tarefa, uma vez que obtivemos um F1Score = 86% para o mesmo dataset, usando apenas as sequências proteicas em bruto.	pt_PT
dc.identifier.tid	203003497	pt_PT
dc.identifier.uri	http://hdl.handle.net/10400.26/46227
dc.language.iso	por	pt_PT
dc.subject	Anotação de proteínas	pt_PT
dc.subject	Machine learning	pt_PT
dc.subject	Classificação de proteínas	pt_PT
dc.subject	Família de proteínas	pt_PT
dc.title	Desenvolvimento de uma plataforma para classificação inteligente de famílias de proteínas	pt_PT
dc.type	master thesis
dspace.entity.type	Publication
rcaap.rights	openAccess	pt_PT
rcaap.type	masterThesis	pt_PT

Ficheiros

Principais

A mostrar 1 - 1 de 1

Nome:: Hugo-David-Duarte-Lucas.pdf
Tamanho:: 3.98 MB
Formato:: Adobe Portable Document Format

Ver/Abrir

Licença

A mostrar 1 - 1 de 1

Nome:: license.txt
Tamanho:: 1.85 KB
Formato:: Item-specific license agreed upon to submission
Descrição:

Ver/Abrir

Coleções

ISEC - Trabalhos de Projeto | Relatórios de Estágio | Projetos de Investigação