Repository logo
 
Publication

CEPAD: Classificação e processamento automatizado de documento

dc.contributor.advisorGonƧalves, Nuno Pina
dc.contributor.authorBorges, Rui Pedro Pinto
dc.date.accessioned2023-01-11T14:40:09Z
dc.date.available2023-01-11T14:40:09Z
dc.date.issued2022-12
dc.description.abstractA maior parte da faturação continua a ser feita com recurso a papel. A digitalização do processamento deste tipo de documentos promete apresentar vantagens financeiras e de qualidade. Pretendeu-se então estudar a possibilidade de desenvolver uma ferramenta que, recorrendo a Machine Learning, permita auxiliar na identificação e categorização dos campos presentes num documento. Como ponto de partida do desenvolvimento estudou-se o estado da arte atual de vÔrios campos de estudo, como Machine Learning, Optical Character Recognition e tarefas de classificação, partindo-se em seguida para uma anÔlise dos possíveis utilizadores, levantamento de requisitos e modelação do sistema a desenvolver. Recolhidos os dados que permitiram o treino de um modelo de Machine Learning, desenvolveu-se uma aplicação capaz de gerir documentos e processÔ-los, permitindo aos seus utilizadores validarem os dados inferidos, guardarem os resultados deste processamento e exportarem vÔrios resultados simultaneamente. O modelo final apresenta uma percentagem de acerto de 69% quando tendo em conta resultados exata e parcialmente corretos, com uma Distância de Levenshtein média de 4, servindo assim como um auxílio ao processamento de faturas. Finalmente são apresentadas algumas propostas de trabalho futuro e Ôreas que poderão beneficiar de ferramentas que utilizem a mesma tecnologia da aplicação desenvolvida.pt_PT
dc.description.abstractMost invoicing today continues to use paper. The digitization of this type of document processing promises to present financial and quality advantages. It was then intended to study the possibility of developing a tool that, using Machine Learning, helped identify and categorize the fields present in an invoice. As a starting point for the development, the state of the art of various fields of study was studied, such as Machine Learning, Optical Character Recognition, and classification tasks, followed by an analysis of possible users, requirements gathering, and modeling of the system to be developed. Having collected the data that allowed the training of a Machine Learning model, an application was developed capable of managing documents and processing them, allowing its users to validate the inferred data, save the results of this processing and export several results simultaneously. The final model has an accuracy rate of 69% when considering exact and partially correct results, with an average Levenshtein Distance of 4, thus aiding invoice processing. Finally, some proposals for future work and areas that could benefit from tools that use the same technology as the developed application are presented.pt_PT
dc.identifier.tid203250869
dc.identifier.urihttp://hdl.handle.net/10400.26/43136
dc.language.isoporpt_PT
dc.subjectAprendizagem de MƔquinapt_PT
dc.subjectReconhecimento de Entidades Nomeadaspt_PT
dc.subjectFaturação Eletrónicapt_PT
dc.subjectDesenvolvimento Webpt_PT
dc.subjectMachine Learningpt_PT
dc.subjectNamed Entity Recognitionpt_PT
dc.subjectE-Invoicingpt_PT
dc.subjectWeb Developmentpt_PT
dc.titleCEPAD: Classificação e processamento automatizado de documentopt_PT
dc.typemaster thesis
dspace.entity.typePublication
rcaap.rightsopenAccesspt_PT
rcaap.typemasterThesispt_PT
thesis.degree.grantorInstituto Politécnico de Setúbal
thesis.degree.nameMestrado em Engenharia de Softwarept_PT

Files

Original bundle
Now showing 1 - 1 of 1
Loading...
Thumbnail Image
Name:
Tese.pdf
Size:
3.82 MB
Format:
Adobe Portable Document Format
License bundle
Now showing 1 - 1 of 1
No Thumbnail Available
Name:
license.txt
Size:
1.85 KB
Format:
Item-specific license agreed upon to submission
Description: