Name: | Description: | Size: | Format: | |
---|---|---|---|---|
5.92 MB | Adobe PDF |
Authors
Abstract(s)
Nos últimos anos, o volume de informação online tem vindo a crescer
exponencialmente. Os dados pessoais de cada indivíduo são utilizados de forma
contínua pelo governo, por empresas ou por indivíduos, com a finalidade de criar
dados estatísticos. Estes podem depois ser utilizados em campanhas de marketing,
na previsão de tendências futuras, na ajuda em investigações ao nível da ciência e da
medicina e muitos outros exemplos.
O maior problema com a utilização destes dados é que eles podem conter informação
sensível e informação que permita identificar um indivíduo, podendo causar graves
problemas a nível pessoal como, por exemplo, roubo de identidade, extração de
dinheiro, etc., dependendo dos dados divulgados.
Para resolver este problema existe a anonimização de dados. Esta tem como
finalidade alterar os dados de modo a ocultar informação sensível e que podem
permitir a identificação de um indivíduo, tornando-os menos precisos.
Uma das maiores dificuldades perante a anonimização de dados é que ao mesmo
tempo que se mantém a privacidade dos indivíduos, a utilidade dos dados deve
permanecer e, para isto, é necessário ter em atenção as técnicas e os algoritmos que
são utilizadas e a quantidade de vezes que estas são aplicadas.
Neste trabalho são estudadas as técnicas de anonimização mais comuns, como a
generalização, a supressão, a anatomização, a permutação e a perturbação e também
alguns dos algoritmos de anonimização mais conhecidos, como o k-anonimato e o l diversidade.
Para a avaliação e a aplicação destas técnicas e algoritmos foram utilizadas as
ferramentas open-source, ARX Data Anonymization Tool, UTD Anonymization
Toolbox e Amnesia. Utilizando a metodologia OSSpal foi também realizada a
avaliação de cada uma destas ferramentas.
A metodologia OSSpal tem como finalidade avaliar ferramentas open-source de forma
a ajudar os utilizadores e as organizações a encontrar as melhores, recorrendo a um
conjunto de categorias. No contexto desta tese, as categorias utilizadas foram a
funcionalidade, as características funcionais do software, o suporte e os serviços, a
documentação, os atributos da tecnologia do software, a comunidade e a adaptação
e o processo de desenvolvimento.
Nesta tese, o trabalho experimental realizado consistiu na avaliação das três
ferramentas de anonimização utilizando dois dataset reais. O UTD Anonymization
Toolbox só foi utilizado com um dos datasets, o de menor tamanho, porque esta
ferramenta requer a introdução manual dos elementos do dataset num ficheiro, o que
pode originar erros.
Na avaliação das ferramentas é possível verificar que o ARX Data Anonymization Tool
é a ferramenta que apresenta os dados de forma mais simples e que permite uma
melhor visualização por parte do utilizador. O Amnesia é fácil de utilizar pois mostra
ao utilizador todos os passos necessários para anonimizar um dataset, apesar de
mostrar alguns erros, porém, o UTD Anonymization Toolbox foi a ferramenta que
apresentou mais dificuldades na utilização devido ao facto de não ter uma interface
gráfica, mas também porque a introdução dos dados tem de ser feita de forma manual.
Após a avaliação experimental é possível concluir que o ARX Data Anonymization
Tool é a melhor ferramenta para ser usada na anonimização de dados, seguindo-se o
Amnesia e, por último o UTD Anonymization Toolbox.
Description
Keywords
Anonimização de dados Privacidade Generalização Supressão Anatomização Permutação Perturbação K-anonymity L-diversity ARX OSSpal