Name: | Description: | Size: | Format: | |
---|---|---|---|---|
4.94 MB | Adobe PDF |
Authors
Advisor(s)
Abstract(s)
A quantidade de informação tem vindo a crescer ao longo dos anos, e a sua sobrecarga é hoje, um dos grandes problemas que as empresas e instituições enfrentam. A classificação dos documentos de forma automÔtica surge então como uma necessidade, visto um sistema automÔtico ser capaz de classificar milhares de documentos em apenas alguns segundos, o que seria impraticÔvel de ser realizado por um ser humano. O maior desafio nesta Ôrea é obter os melhores resultados, maior eficiência computacional e maior capacidade de auto-aprendizagem, através nomeadamente da implementação de técnicas para a melhor seleção de features.
Este trabalho analisa e compara tĆ©cnicas de classificação com processamento de linguagem natural, atravĆ©s da linguagem Python e com apoio da biblioteca para processamento de linguagem natural Natural Language Toolkit (NLTK). Neste projeto, foram implementados algoritmos para classificação de documentos, com tĆ©cnicas de Text Mining e NLP, utilizando classificadores como Redes Neuronais, SVMās e Redes Bayesianas. Foram avaliados em vĆ”rios casos de estudo e os resultados obtidos nos diferentes estudos atingiram valores mĆ©dios acima de 90% de accuracy. Um dos principais objetivos deste projeto Ć© aplicar os classificadores implementados na classificação de literatura na Ć”rea das proteĆnas. Como resultado deste projeto, foi tambĆ©m implementada uma aplicação web para classificação de documentos, disponibilizando os algoritmos implementados.
Description
Keywords
Classificação de textos Text mining Redes neuronais