Publication
CEPAD: Classificação e processamento automatizado de documento
dc.contributor.advisor | GonƧalves, Nuno Pina | |
dc.contributor.author | Borges, Rui Pedro Pinto | |
dc.date.accessioned | 2023-01-11T14:40:09Z | |
dc.date.available | 2023-01-11T14:40:09Z | |
dc.date.issued | 2022-12 | |
dc.description.abstract | A maior parte da faturação continua a ser feita com recurso a papel. A digitalização do processamento deste tipo de documentos promete apresentar vantagens financeiras e de qualidade. Pretendeu-se entĆ£o estudar a possibilidade de desenvolver uma ferramenta que, recorrendo a Machine Learning, permita auxiliar na identificação e categorização dos campos presentes num documento. Como ponto de partida do desenvolvimento estudou-se o estado da arte atual de vĆ”rios campos de estudo, como Machine Learning, Optical Character Recognition e tarefas de classificação, partindo-se em seguida para uma anĆ”lise dos possĆveis utilizadores, levantamento de requisitos e modelação do sistema a desenvolver. Recolhidos os dados que permitiram o treino de um modelo de Machine Learning, desenvolveu-se uma aplicação capaz de gerir documentos e processĆ”-los, permitindo aos seus utilizadores validarem os dados inferidos, guardarem os resultados deste processamento e exportarem vĆ”rios resultados simultaneamente. O modelo final apresenta uma percentagem de acerto de 69% quando tendo em conta resultados exata e parcialmente corretos, com uma DistĆ¢ncia de Levenshtein mĆ©dia de 4, servindo assim como um auxĆlio ao processamento de faturas. Finalmente sĆ£o apresentadas algumas propostas de trabalho futuro e Ć”reas que poderĆ£o beneficiar de ferramentas que utilizem a mesma tecnologia da aplicação desenvolvida. | pt_PT |
dc.description.abstract | Most invoicing today continues to use paper. The digitization of this type of document processing promises to present financial and quality advantages. It was then intended to study the possibility of developing a tool that, using Machine Learning, helped identify and categorize the fields present in an invoice. As a starting point for the development, the state of the art of various fields of study was studied, such as Machine Learning, Optical Character Recognition, and classification tasks, followed by an analysis of possible users, requirements gathering, and modeling of the system to be developed. Having collected the data that allowed the training of a Machine Learning model, an application was developed capable of managing documents and processing them, allowing its users to validate the inferred data, save the results of this processing and export several results simultaneously. The final model has an accuracy rate of 69% when considering exact and partially correct results, with an average Levenshtein Distance of 4, thus aiding invoice processing. Finally, some proposals for future work and areas that could benefit from tools that use the same technology as the developed application are presented. | pt_PT |
dc.identifier.tid | 203250869 | |
dc.identifier.uri | http://hdl.handle.net/10400.26/43136 | |
dc.language.iso | por | pt_PT |
dc.subject | Aprendizagem de MƔquina | pt_PT |
dc.subject | Reconhecimento de Entidades Nomeadas | pt_PT |
dc.subject | Faturação Eletrónica | pt_PT |
dc.subject | Desenvolvimento Web | pt_PT |
dc.subject | Machine Learning | pt_PT |
dc.subject | Named Entity Recognition | pt_PT |
dc.subject | E-Invoicing | pt_PT |
dc.subject | Web Development | pt_PT |
dc.title | CEPAD: Classificação e processamento automatizado de documento | pt_PT |
dc.type | master thesis | |
dspace.entity.type | Publication | |
rcaap.rights | openAccess | pt_PT |
rcaap.type | masterThesis | pt_PT |
thesis.degree.grantor | Instituto Politécnico de Setúbal | |
thesis.degree.name | Mestrado em Engenharia de Software | pt_PT |