Logo do repositório
 
Publicação

Classificação de Literatura Biomédica

dc.contributor.advisorPereira, Carlos Manuel Jorge da Silvapt_PT
dc.contributor.authorOliveira, João Pedro dos Santos
dc.date.accessioned2016-04-13T14:06:33Z
dc.date.available2016-04-13T14:06:33Z
dc.date.issued2014
dc.description.abstractAtualmente existe uma enorme quantidade de informação online de literatura biomédica. A PubMed, o repositório de dados líder nesta área, destaca-se, à data atual, com mais de 23 milhões de citações a partir da Medline. Devido a esta quantidade de informação disponível torna-se difícil, para os utilizadores da área, a pesquisa, análise e organização da informação relevante. Para apoiar estas tarefas, foi desenvolvida uma aplicação web, designada DoCluster 2.0, onde os utilizadores podem extrair informação relevante e classificar documentos em repositórios locais ou documentos obtidos através de uma pesquisa ao Web service da PubMed. Na extração de informação, para além da segmentação de documentos, normalmente realizada em qualquer processo de text mining, foram introduzidas duas ontologias que permitem uma extração de informação adequada a áreas específicas. As ontologias usadas foram a Gene Ontology que se foca na área de genes e produtos resultantes desses genes, adaptada neste caso ao domínio das peptidases e a Merops que se centra também na área das peptidases. Para a classificação dos documentos recorreu-se a técnicas de aprendizagem não supervisionada, através dos algoritmos k-means, fuzzy c-means e subtractive clustering e a uma técnica de aprendizagem supervisionada baseada em máquinas de vectores de suporte. Para averiguar quais os melhores métodos de aprendizagem e de extração de caraterísticas do problema, foram realizados vários testes sobre datasets no domínio das peptidases. curados pela Merops. A medição dos resultados teve incidência em diferentes métricas, sendo elas a precisão e recall do classificador, o número de características extraídas no pré-processamento de documentos e o custo computacional de todo o processo de text mining. Da análise dos resultados obtidos concluiu-se que as máquinas de vectores de suporte conseguem um melhor desempenho em relação aos algoritmos de aprendizagem não supervisionada, contudo exigindo um treino prévio dos classificadores. No pré-processamento de documentos, através do uso de ontologias, foi possível melhorar o desempenho de todo o processo e obter informação com um menor número de características sem que a qualidade do classificador diminua. Constatou-se também que o algoritmo subtractive clustering, por não necessitar da definição a priori do número de clusters é ideal para o tratamento de um conjunto de documentos em relação ao qual não existe um conhecimento prévio do seu conteúdo, como é o caso de documentos obtidos através da PubMed.pt_PT
dc.identifier.tid201198789
dc.identifier.urihttp://hdl.handle.net/10400.26/13142
dc.language.isoporpt_PT
dc.peerreviewednopt_PT
dc.subjectPeptidasespt_PT
dc.subjectCategorização automáticapt_PT
dc.subjectMáquinas de vetores de suportept_PT
dc.titleClassificação de Literatura Biomédicapt_PT
dc.typemaster thesis
dspace.entity.typePublication
rcaap.rightsopenAccesspt_PT
rcaap.typemasterThesispt_PT

Ficheiros

Principais
A mostrar 1 - 1 de 1
A carregar...
Miniatura
Nome:
Joao-Santos-Oliveira.pdf
Tamanho:
8.43 MB
Formato:
Adobe Portable Document Format
Licença
A mostrar 1 - 1 de 1
Miniatura indisponível
Nome:
license.txt
Tamanho:
1.85 KB
Formato:
Item-specific license agreed upon to submission
Descrição: