Classificação de Literatura Biomédica

Pereira, Carlos Manuel Jorge da SilvaOliveira, João Pedro dos Santos2016-04-132016-04-132014http://hdl.handle.net/10400.26/13142Atualmente existe uma enorme quantidade de informação online de literatura biomédica. A PubMed, o repositório de dados líder nesta área, destaca-se, à data atual, com mais de 23 milhões de citações a partir da Medline. Devido a esta quantidade de informação disponível torna-se difícil, para os utilizadores da área, a pesquisa, análise e organização da informação relevante. Para apoiar estas tarefas, foi desenvolvida uma aplicação web, designada DoCluster 2.0, onde os utilizadores podem extrair informação relevante e classificar documentos em repositórios locais ou documentos obtidos através de uma pesquisa ao Web service da PubMed. Na extração de informação, para além da segmentação de documentos, normalmente realizada em qualquer processo de text mining, foram introduzidas duas ontologias que permitem uma extração de informação adequada a áreas específicas. As ontologias usadas foram a Gene Ontology que se foca na área de genes e produtos resultantes desses genes, adaptada neste caso ao domínio das peptidases e a Merops que se centra também na área das peptidases. Para a classificação dos documentos recorreu-se a técnicas de aprendizagem não supervisionada, através dos algoritmos k-means, fuzzy c-means e subtractive clustering e a uma técnica de aprendizagem supervisionada baseada em máquinas de vectores de suporte. Para averiguar quais os melhores métodos de aprendizagem e de extração de caraterísticas do problema, foram realizados vários testes sobre datasets no domínio das peptidases. curados pela Merops. A medição dos resultados teve incidência em diferentes métricas, sendo elas a precisão e recall do classificador, o número de características extraídas no pré-processamento de documentos e o custo computacional de todo o processo de text mining. Da análise dos resultados obtidos concluiu-se que as máquinas de vectores de suporte conseguem um melhor desempenho em relação aos algoritmos de aprendizagem não supervisionada, contudo exigindo um treino prévio dos classificadores. No pré-processamento de documentos, através do uso de ontologias, foi possível melhorar o desempenho de todo o processo e obter informação com um menor número de características sem que a qualidade do classificador diminua. Constatou-se também que o algoritmo subtractive clustering, por não necessitar da definição a priori do número de clusters é ideal para o tratamento de um conjunto de documentos em relação ao qual não existe um conhecimento prévio do seu conteúdo, como é o caso de documentos obtidos através da PubMed.porPeptidasesCategorização automáticaMáquinas de vetores de suporteClassificação de Literatura Biomédicamaster thesis201198789