Classificação de dados biológicos : características e classificadores

Correia, Daniel João Bastos

http://hdl.handle.net/10400.26/17234

Utilize este identificador para referenciar este registo.

Nome:	Descrição:	Tamanho:	Formato:
Daniel-Joao-Correia.pdf		2.65 MB	Adobe PDF	Ver/Abrir

Contacte-nos

Autores

Correia, Daniel João Bastos

Orientador(es)

Pereira, Carlos Manuel Jorge da Silva

Resumo(s)

Reconhecendo a importância que o estudo das proteínas desempenha para a compreensão de inúmeros sistemas biológicos, este trabalho tem por objetivo analisar e explorar a efetividade da utilização de técnicas de data mining para classificação de proteínas, aplicadas ao caso de estudo da deteção de peptidases. A metodologia apresentada e avaliada é baseada em técnicas de text mining aplicadas à estrutura primária das proteínas, conjugadas com algoritmos de classificação supervisionada. São apresentados resultados para os algoritmos baseados em máquinas de vetor de suporte, nomeadamente C-SVC, One-Class e LASVM (incremental). Para o caso de estudo da deteção de peptidases, o algoritmo que apresentou melhores resultados foi o C-SVC. A utilização do algoritmo One-Class apresentou uma diminuição da capacidade de deteção de peptidases relativamente ao C-SVC. Apesar disso, o algoritmo One-Class pode ser uma solução de compromisso quando só são conhecidos exemplos positivos. Através da utilização do algoritmo incremental LASVM, conseguiram-se resultados muito próximos do C-SVC. Contudo, não foi possível superá-los, mas os resultados obtidos apresentam ganhos significativos ao nível do tempo de treino e da complexidade dos modelos gerados, tornando-se um algoritmo bastante válido para aplicar a problemas que disponham de uma grande quantidade de exemplos de treino. Além da análise e avaliação dos algoritmos, foi também elaborada uma plataforma web, “Bioink Search”, que permite aplicar as metodologias descritas para a deteção de peptidases.

Palavras-chave

Proteínas Deteção de Peptidases Text mining Support Vector Machines One-Class LASVM Web Platform

URI

http://hdl.handle.net/10400.26/17234

Projetos de investigação

BIOINK- Incremental Kernel Learning for Biological Data Analysis

Projeto de investigaçãoVer mais

Coleções

ISEC - Dissertações de Mestrado

Ver registo completo