Name: | Description: | Size: | Format: | |
---|---|---|---|---|
3.99 MB | Adobe PDF |
Authors
Abstract(s)
Nas últimas décadas a área da saúde tem-se focado na busca de respostas, cada vez mais
personalizadas, para o tratamento das mais variadas patologias. Neste caminho encontra-se
o doente oncológico, diferenciando-se dos demais pela complexidade da sua patologia. Neste
sentido têm surgido novas disciplinas como: a Bioinformática, a Farmacogenómica, o
Machine Learning, o Data Mining, a Genómica, entre outras. A descoberta do
sequenciamento genético tem avanços muito significativos nestas áreas, permitindo cada vez
mais praticar a chamada medicina de precisão e individualizada para cada doente. Ou seja,
cada vez mais o doente é tratado de forma individualizada, com uma determinada patologia,
e não um grupo de doentes com características distintas, que detêm a mesma patologia.
Será estudada a similaridade entre linhas celulares, tendo por base os Sistemas de
Recomendação (RecSys), para o tratamento do doente oncológico. Na implementação deste
projeto usar-se-á a metodologia Cross-Industry Standard Process for Data Mining (CRISP DM), onde serão abordadas métricas de similaridade e algoritmos de machine learning, por
forma a responder à identificação da similaridade entre linhas celulares. O dataset usado foi
o do Genomics of Drug Sensitivity in Cancer (GDSC1), tendo-se selecionado uma amostra
de 20 linhas celulares (10 amostras referentes à patologia da mama e 10 amostras referentes
a patologias da pele), com 49386 genes cada, dado os recursos de hardware. Para avaliar a
similaridade da expressão génica entre estas linhas celulares, serão aplicadas métricas de
similaridade, para avaliar 3 genes de uma amostra das 20 linhas celulares, e por outro lado
os algoritmos de machine learning onde serão avaliados os 49386 genes de cada amostra das
20 linhas celulares. Assim as métricas de similaridade testadas foram as distâncias de Dice,
Jaccard, Sorensen, Czekanowski, Minkowski, Pearson, Intersection, Manhattan, Tanimoto e
Euclideana. Na parte dos algoritmos de machine learning foram testados: Rede Neural
Artificial, Logistic regression, Linear discriminant analysis, K-Nearest Neighbors,
DecisionTreeClassifier, Gaussian NB e Support vector machine. Como conclusão dos
resultados obtidos, as distâncias de similaridade com melhores resultados foram Jaccard e
Dice, uma vez que apresentaram os resultados mais consistentes para os dois genes
selecionados sendo que num dos genes os resultados ainda foram mais consistentes, já os algoritmos que apresentaram uma melhor accuracy foram Logistic Regression, Linear
Discriminant Analysis e Gaussian NB.
Description
Keywords
Algoritmo de similaridade Distâncias de similaridade Linha celular Tratamento oncológico Sistema de recomendação GDSC DNA Microarray Machine learning