Análise Exploratória de Atributos Textuais em Bases de Dados para Identificação de Campos Sensíveis
Anais Estendidos do XXI Simpósio Brasileiro de Segurança da Informação e de Sistemas Computacionais (SBSeg Estendido 2021)(2021)
Abstract
A iminente implantação da Lei Geral de Proteção de Dados Pessoais brasileira torna urgente a criação de técnicas automatizadas para anonimização de bases de dados. As ferramentas existentes são dependentes de que um especialista manualmente escolha os campos de interesse. Neste trabalho, propõe-se o uso de algoritmos de aprendizado de máquina em atributos textuais a fim de explorar como identificar nomes e outras informações sensíveis. Com isso, espera-se fomentar aplicações capazes de classificar automaticamente campos sensíveis em bancos de dados em um passo anterior à anonimização. A avaliação experimental da representação por frequência de digramas proposta, mostra que é possível obter modelos simples de aprendizado de máquina, como florestas aleatórias e redes neurais, capazes de classificar nomes de pessoas, endereços e descrições textuais com alta taxa de acurácia (97%) usando 676 características.
MoreTranslated text
AI Read Science
Must-Reading Tree
Example
![](https://originalfileserver.aminer.cn/sys/aminer/pubs/mrt_preview.jpeg)
Generate MRT to find the research sequence of this paper
Chat Paper
Summary is being generated by the instructions you defined