Repository logo
 
Loading...
Thumbnail Image
Publication

Similaridade em linhas celulares nos sitemas de recomendação farmacológicos para o tratamento oncológico

Use this identifier to reference this record.
Name:Description:Size:Format: 
Bruno_Bento.pdf3.99 MBAdobe PDF Download

Abstract(s)

Nas últimas décadas a área da saúde tem-se focado na busca de respostas, cada vez mais personalizadas, para o tratamento das mais variadas patologias. Neste caminho encontra-se o doente oncológico, diferenciando-se dos demais pela complexidade da sua patologia. Neste sentido têm surgido novas disciplinas como: a Bioinformática, a Farmacogenómica, o Machine Learning, o Data Mining, a Genómica, entre outras. A descoberta do sequenciamento genético tem avanços muito significativos nestas áreas, permitindo cada vez mais praticar a chamada medicina de precisão e individualizada para cada doente. Ou seja, cada vez mais o doente é tratado de forma individualizada, com uma determinada patologia, e não um grupo de doentes com características distintas, que detêm a mesma patologia. Será estudada a similaridade entre linhas celulares, tendo por base os Sistemas de Recomendação (RecSys), para o tratamento do doente oncológico. Na implementação deste projeto usar-se-á a metodologia Cross-Industry Standard Process for Data Mining (CRISP DM), onde serão abordadas métricas de similaridade e algoritmos de machine learning, por forma a responder à identificação da similaridade entre linhas celulares. O dataset usado foi o do Genomics of Drug Sensitivity in Cancer (GDSC1), tendo-se selecionado uma amostra de 20 linhas celulares (10 amostras referentes à patologia da mama e 10 amostras referentes a patologias da pele), com 49386 genes cada, dado os recursos de hardware. Para avaliar a similaridade da expressão génica entre estas linhas celulares, serão aplicadas métricas de similaridade, para avaliar 3 genes de uma amostra das 20 linhas celulares, e por outro lado os algoritmos de machine learning onde serão avaliados os 49386 genes de cada amostra das 20 linhas celulares. Assim as métricas de similaridade testadas foram as distâncias de Dice, Jaccard, Sorensen, Czekanowski, Minkowski, Pearson, Intersection, Manhattan, Tanimoto e Euclideana. Na parte dos algoritmos de machine learning foram testados: Rede Neural Artificial, Logistic regression, Linear discriminant analysis, K-Nearest Neighbors, DecisionTreeClassifier, Gaussian NB e Support vector machine. Como conclusão dos resultados obtidos, as distâncias de similaridade com melhores resultados foram Jaccard e Dice, uma vez que apresentaram os resultados mais consistentes para os dois genes selecionados sendo que num dos genes os resultados ainda foram mais consistentes, já os algoritmos que apresentaram uma melhor accuracy foram Logistic Regression, Linear Discriminant Analysis e Gaussian NB.

Description

Keywords

Algoritmo de similaridade Distâncias de similaridade Linha celular Tratamento oncológico Sistema de recomendação GDSC DNA Microarray Machine learning

Citation

Research Projects

Organizational Units

Journal Issue