Repository logo
 
Loading...
Thumbnail Image
Publication

Codification of clinical episodes in natural language

Use this identifier to reference this record.
Name:Description:Size:Format: 
Hugo-Filipe-da-Fonseca-e-Silva.pdf2.08 MBAdobe PDF Download

Abstract(s)

The International Classification of Diseases, 10th Revision (ICD-10), has been widely used to classify patient diagnostic information. Encoding pathologies of clinical episodes into ICD-10 codes is a laborious task, usually done by dedicated physicians with spe- cific training. Automatically classifying Electronic Health Records (EHR) from text into diagnostic codes has been challenging to the Natural Language Processing (NLP) community. This work presents a literature review on the subject of coding clinical episodes in nat- ural language, namely the main problems and barriers that affect it, the use of natural language processing in parallel with ontologies, use of NLP in the area of healthcare, automatic ICD-10 coding, use of Pretrained Language Models (PLM), as well as devel- oped works to solve the clinical abbreviation problem, and detection of clinical symp- tom negation. It also intends to propose the method PLM-ICD-C based on the cosine similarity, to process EHRs with natural language texts, in order to give useful suggestions of ICD- 10 codes for the coders, aiming to facilitate the process. For that it is proposed a tech- nique of multiple runs and a bucket category strategy, applied to the Medical Informa- tion Mart for Intensive Care (MIMIC)-IV dataset. The results show that the strategy of using the concept of bucket category improves the results, while providing useful suggestions, where Precision has a 5-fold improvement, while there are 2-3 fold im- provements in Recall and 4-fold improvements in F1-score. The previous methodology is combined with PLM-ICD, in order to increase the num- ber of probably useful suggestions of ICD-10 codes. The results show that the use of PLM-ICD-C, consisting of the improved cosine method and PLM-ICD, improves the re- sults, increasing the F1-score by 0.5%, but most important, by increasing the Precision from 46.3% to 50%, which means a significant improvement on the code suggestions given to the medical doctors performing encoding functions.
A Classificação Internacional de Doenças, 10ª Revisão (ICD-10) tem sido largamente utilizada para classificar informação diagnóstica do paciente. A codificação de episódios clínicos em códigos ICD-10 é uma tarefa laboriosa, geralmente feita por médicos dedicados com formação específica. A codificação automática a partir de registos de saúde eletrónicos (EHR) em códigos de diagnóstico, tem sido desafiante para a comunidade de processamento de linguagem natural (NLP).Este trabalho apresenta inicialmente uma revisão de literatura sobre o tema da codificação de episódios clínicos em linguagem natural, nomeadamente os problemas e barreiras principais que a afetam, uso de processamento de linguagem natural em paralelo com ontologias, trabalhos de NLP na área da saúde, codificação automática ICD-10, uso de modelos de linguagem pré-treinados (PLM), bem como trabalhos desenvolvidos para resolver a problemática de abreviaturas clínicas e deteção de negação de sintomas clínicos.Pretende também propor o método PLM-ICD-C baseado na similaridade do cosseno, para processar EHRs em linguagem natural, fornecendo sugestões de códigos ICD-10 para os codificadores, por forma a facilitar o processo. Para tal propõe-se uma técnica de múltiplos runs e estratégia de bucket category, aplicado ao dataset Medical Information Mart for Intensive Care (MIMIC)-IV. Os resultados mostram que a estratégia de utilização do conceito de bucket category melhora os resultados, ao mesmo tempo que fornece sugestões úteis, onde a precisão tem um valor 5 vezes maior, enquanto há melhorias de 2 a 3 vezes na recall e de 4 vezes no F1-score.A metodologia anterior é combinada com o PLM-ICD, por forma a aumentar o número de sugestões prováveis úteis de códigos ICD-10. Os resultados mostram que o uso do PLM-ICD-C, que consiste no método do cosseno melhorado e PLM-ICD, melhora os resultados, aumentando o F1-score em 0.5%, mas mais importante, aumentando a precisão de 46.3% para 50%, o que significa uma melhoria significativa nas sugestões de códigos dados aos médicos que executam funções de codificação.

Description

Keywords

Codificação Automática Episódios Clínicos ICD-10 NLP PLM PLM-ICD-C Registo de saúde eletrónico Similaridade do Cosseno

Citation

Research Projects

Organizational Units

Journal Issue