Análise Exploratória de Atributos Textuais em Bases de Dados para Identificação de Campos Sensíveis

Bruno H. Labres,André Grégio,Fabiano Silva

Anais Estendidos do XXI Simpósio Brasileiro de Segurança da Informação e de Sistemas Computacionais (SBSeg Estendido 2021)(2021)

Cited 0|Views1
No score
Abstract
A iminente implantação da Lei Geral de Proteção de Dados Pessoais brasileira torna urgente a criação de técnicas automatizadas para anonimização de bases de dados. As ferramentas existentes são dependentes de que um especialista manualmente escolha os campos de interesse. Neste trabalho, propõe-se o uso de algoritmos de aprendizado de máquina em atributos textuais a fim de explorar como identificar nomes e outras informações sensíveis. Com isso, espera-se fomentar aplicações capazes de classificar automaticamente campos sensíveis em bancos de dados em um passo anterior à anonimização. A avaliação experimental da representação por frequência de digramas proposta, mostra que é possível obter modelos simples de aprendizado de máquina, como florestas aleatórias e redes neurais, capazes de classificar nomes de pessoas, endereços e descrições textuais com alta taxa de acurácia (97%) usando 676 características.
More
Translated text
AI Read Science
Must-Reading Tree
Example
Generate MRT to find the research sequence of this paper
Chat Paper
Summary is being generated by the instructions you defined