| Name: | Description: | Size: | Format: | |
|---|---|---|---|---|
| 8.43 MB | Adobe PDF |
Authors
Advisor(s)
Abstract(s)
Atualmente existe uma enorme quantidade de informação online de literatura biomédica. A
PubMed, o repositório de dados líder nesta área, destaca-se, à data atual, com mais de 23
milhões de citações a partir da Medline. Devido a esta quantidade de informação disponível
torna-se difícil, para os utilizadores da área, a pesquisa, análise e organização da informação
relevante.
Para apoiar estas tarefas, foi desenvolvida uma aplicação web, designada DoCluster 2.0, onde
os utilizadores podem extrair informação relevante e classificar documentos em repositórios
locais ou documentos obtidos através de uma pesquisa ao Web service da PubMed. Na
extração de informação, para além da segmentação de documentos, normalmente realizada em
qualquer processo de text mining, foram introduzidas duas ontologias que permitem uma
extração de informação adequada a áreas específicas. As ontologias usadas foram a Gene
Ontology que se foca na área de genes e produtos resultantes desses genes, adaptada neste
caso ao domínio das peptidases e a Merops que se centra também na área das peptidases. Para
a classificação dos documentos recorreu-se a técnicas de aprendizagem não supervisionada,
através dos algoritmos k-means, fuzzy c-means e subtractive clustering e a uma técnica de
aprendizagem supervisionada baseada em máquinas de vectores de suporte.
Para averiguar quais os melhores métodos de aprendizagem e de extração de caraterísticas do
problema, foram realizados vários testes sobre datasets no domínio das peptidases. curados
pela Merops. A medição dos resultados teve incidência em diferentes métricas, sendo elas a
precisão e recall do classificador, o número de características extraídas no pré-processamento
de documentos e o custo computacional de todo o processo de text mining.
Da análise dos resultados obtidos concluiu-se que as máquinas de vectores de suporte
conseguem um melhor desempenho em relação aos algoritmos de aprendizagem não
supervisionada, contudo exigindo um treino prévio dos classificadores. No pré-processamento
de documentos, através do uso de ontologias, foi possível melhorar o desempenho de todo o
processo e obter informação com um menor número de características sem que a qualidade do
classificador diminua. Constatou-se também que o algoritmo subtractive clustering, por não
necessitar da definição a priori do número de clusters é ideal para o tratamento de um
conjunto de documentos em relação ao qual não existe um conhecimento prévio do seu
conteúdo, como é o caso de documentos obtidos através da PubMed.
Description
Keywords
Peptidases Categorização automática Máquinas de vetores de suporte
