Classificação de documentos com processamento de linguagem natural

Santos, Cedric Michael dos

http://hdl.handle.net/10400.26/15293

Utilize este identificador para referenciar este registo.

Nome:	Descrição:	Tamanho:	Formato:
Cedric-Michael-Santos.pdf		4.94 MB	Adobe PDF	Ver/Abrir

Contacte-nos

Autores

Santos, Cedric Michael dos

Orientador(es)

Pereira, Carlos Manuel Jorge da Silva

Resumo(s)

A quantidade de informação tem vindo a crescer ao longo dos anos, e a sua sobrecarga é hoje, um dos grandes problemas que as empresas e instituições enfrentam. A classificação dos documentos de forma automática surge então como uma necessidade, visto um sistema automático ser capaz de classificar milhares de documentos em apenas alguns segundos, o que seria impraticável de ser realizado por um ser humano. O maior desafio nesta área é obter os melhores resultados, maior eficiência computacional e maior capacidade de auto-aprendizagem, através nomeadamente da implementação de técnicas para a melhor seleção de features. Este trabalho analisa e compara técnicas de classificação com processamento de linguagem natural, através da linguagem Python e com apoio da biblioteca para processamento de linguagem natural Natural Language Toolkit (NLTK). Neste projeto, foram implementados algoritmos para classificação de documentos, com técnicas de Text Mining e NLP, utilizando classificadores como Redes Neuronais, SVM’s e Redes Bayesianas. Foram avaliados em vários casos de estudo e os resultados obtidos nos diferentes estudos atingiram valores médios acima de 90% de accuracy. Um dos principais objetivos deste projeto é aplicar os classificadores implementados na classificação de literatura na área das proteínas. Como resultado deste projeto, foi também implementada uma aplicação web para classificação de documentos, disponibilizando os algoritmos implementados.

Palavras-chave

Classificação de textos Text mining Redes neuronais

URI

http://hdl.handle.net/10400.26/15293

Coleções

ISEC - Trabalhos de Projeto | Relatórios de Estágio | Projetos de Investigação

Ver registo completo