Representation learning methods for early detection of pathological lesions in chest X-rays images.

Guevara López, MiguelSantos, Catarina FerreiraEvangelista, Ricardo Gil Salgado2025-02-142025-02-142024-12http://hdl.handle.net/10400.26/54420Atualmente existe uma dificuldade em interpretar imagens de Raio-X da zona do tórax, principalmente para médicos que não têm especialidade em radiologia, pois é uma tarefa complexa e apesar de estarem treinados para fazer essa análise, existe um grande grupo de doenças/patologias que podem ser detetadas radiologicamente na zona torácica. É aqui que entram as técnicas emergentes de Inteligência Artificial, como a “Computer Vision” e o “Machine (Deep) Learning”, pois com a ajuda de ambas as técnicas é possível criar mecanismos de avaliação automática com elevado grau de certeza. Atualmente, já tenham sido publicados vários trabalhos, algoritmos, métodos e até soluções prontas para a avaliação automática dessas imagens, elas ainda não atingem o nível de precisão necessário.Por conseguinte, este é considerado um problema sem solução. Esta dissertação é uma nova tentativa de automatizar e melhorar o processo de avaliação de imagens de raios X do tórax. A principal contribuição deste trabalho visa resolver o problema de desequilíbrio dos conjuntos de dados de domínio público, implementando um procedimento de “Aumento de dados”, que permite melhorar o desempenho/precisão dos modelos de classificação de Deep Learning desenvolvidos anteriormente. Com isso, é possível aumentar o número de imagens de patologias sub-representadas. Testámos o nosso método utilizando o conjunto de dados CheXpert, que será descrito em pormenor mais adiante. Outra contribuição é o facto de dividir o conjunto de dados em vários subconjuntos binários e treiná-los isoladamente. Neste sentido, como mencionado, foi criado um subconjunto para cada patologia em vez de avaliar todas as patologias em conjunto. Selecionámos e afinámos dois modelos de classificação de aprendizagem profunda de alto desempenho desenvolvidos anteriormente: VGG19 e DenseNet121. No final, foi obtida uma tabela com todos os valores de AUC antes e depois do Data Augmentation, bem como um gráfico para cada patologia e para cada modelo. Estes passos resultaram em valores médios de AUC de 0,68 e 0,74 antes do Data Augmentation e de 0,96 e 0,97 após o Data Augmentation, para o modelo VGG19 e o modelo DenseNet121 respetivamente.There is currently difficulty in interpreting X-Ray images of the chest area, especially for physicians who do not have a specialty in radiology, because it is a complex task and although physicians are trained to do this analysis, there is a large group of diseases/pathologies that manifest themselves radiologically in the thoracic area. This is where emergent Artificial Intelligence techniques, such as Computer Vision and Machine (Deep) Learning come in, because with the help of both techniques, it is possible to create mechanisms that automatically assess with a high degree of certainty those X-Ray images. Although, at present, several papers have been published and various algorithms and methods exist, as well as some off-the-shelf solutions to evaluate these images automatically, they still do not have the required level of accuracy. Therefore, this is considered an unsolved problem. This thesis is a further attempt to automate and improve the process of evaluating chest X-ray images. The main contribution of this work aims to try the imbalanced problem of public domain datasets by implementing a “Data Augmentation” procedure, which allows enhancing the performance / accuracy of previous developed deep learning classification models. With this, it is possible to increase the number of images of pathologies underrepresented. We test our method using the CheXpert Dataset, which will be described in detail afterwards. Another contribution is the fact of dividing the dataset into several binary subsets and train these alone. In this sense, as mentioned, a subset was created for each pathology instead of evaluating all the pathologies together. We selected and fine tuning two previously developed high-performance deep learning classification models: VGG19 and DenseNet121. In the end, it was obtained a table with all the AUC values before and after Data Augmentation, as well as a graph for each pathology, for each model. These steps resulted in average AUC values of 0.68 and 0.74 before Data Augmentation and 0.96 and 0.97 after Data Augmentation, for the VGG19 model and the DenseNet121 model respectively.engRadiografias do tóraxDoenças pulmonaresMachine (deep) learningAumento de dadosInteligência ArtificialChest X-raysLung diseasesMachine (deep) learningData augmentationArtificial intelligenceRepresentation learning methods for early detection of pathological lesions in chest X-rays images.master thesis203799445