Publicação
Classificação de documentos com processamento de linguagem natural
| dc.contributor.advisor | Pereira, Carlos Manuel Jorge da Silva | |
| dc.contributor.author | Santos, Cedric Michael dos | |
| dc.date.accessioned | 2016-11-04T16:37:30Z | |
| dc.date.available | 2016-11-04T16:37:30Z | |
| dc.date.issued | 2015 | |
| dc.description.abstract | A quantidade de informação tem vindo a crescer ao longo dos anos, e a sua sobrecarga é hoje, um dos grandes problemas que as empresas e instituições enfrentam. A classificação dos documentos de forma automática surge então como uma necessidade, visto um sistema automático ser capaz de classificar milhares de documentos em apenas alguns segundos, o que seria impraticável de ser realizado por um ser humano. O maior desafio nesta área é obter os melhores resultados, maior eficiência computacional e maior capacidade de auto-aprendizagem, através nomeadamente da implementação de técnicas para a melhor seleção de features. Este trabalho analisa e compara técnicas de classificação com processamento de linguagem natural, através da linguagem Python e com apoio da biblioteca para processamento de linguagem natural Natural Language Toolkit (NLTK). Neste projeto, foram implementados algoritmos para classificação de documentos, com técnicas de Text Mining e NLP, utilizando classificadores como Redes Neuronais, SVM’s e Redes Bayesianas. Foram avaliados em vários casos de estudo e os resultados obtidos nos diferentes estudos atingiram valores médios acima de 90% de accuracy. Um dos principais objetivos deste projeto é aplicar os classificadores implementados na classificação de literatura na área das proteínas. Como resultado deste projeto, foi também implementada uma aplicação web para classificação de documentos, disponibilizando os algoritmos implementados. | pt_PT |
| dc.identifier.tid | 201332477 | |
| dc.identifier.uri | http://hdl.handle.net/10400.26/15293 | |
| dc.language.iso | por | pt_PT |
| dc.subject | Classificação de textos | pt_PT |
| dc.subject | Text mining | pt_PT |
| dc.subject | Redes neuronais | pt_PT |
| dc.title | Classificação de documentos com processamento de linguagem natural | pt_PT |
| dc.type | master thesis | |
| dspace.entity.type | Publication | |
| rcaap.rights | openAccess | pt_PT |
| rcaap.type | masterThesis | pt_PT |
