VIGIL — Detector de PII

Detector automático de informações pessoais identificáveis (PII) em pedidos de acesso à informação, desenvolvido para o 1º Hackathon Participa DF.

PythonBERTimbauTransformerspandas

O desafio

O 1º Hackathon em Controle Social "Desafio Participa DF" propunha soluções para democratizar o acesso à informação no Distrito Federal. Pedidos de acesso à informação frequentemente contêm dados pessoais identificáveis (PII) — CPF, e-mail, telefone, nomes completos. Antes de disponibilizar as respostas, é necessário detectar e proteger esses dados para cumprir a LGPD. Fazer isso manualmente em milhares de documentos é inviável.

Arquitetura em 4 camadas

O VIGIL processa cada texto em etapas complementares, maximizando a sensibilidade:

  1. Pré-processamento — Normalização Unicode (NFKC), remoção de caracteres de controle, preservação de dígitos e separadores.
  2. Padrões estruturados (regex) — Detecção de CPF, e-mail, telefone e RG em formatos brasileiros, com filtros anti-falsos positivos para identificadores institucionais (SEI, NUP, CDA, CNH, matrícula).
  3. NER com BERTimbau — Modelo de Named Entity Recognition treinado em português para detectar nomes de pessoas físicas, com lista de 130+ exclusões de nomes institucionais.
  4. Sinais contextuais — Marcadores de 1ª pessoa ("meu CPF", "meu nome"), indicadores de contato ("endereço", "WhatsApp") como metadados para análise.

Estratégia recall-first

MétricaValor
Precision96,7%
Recall100%
F1-Score~0,98

O recall de 100% é uma decisão estratégica: em proteção de dados, é preferível sinalizar um falso positivo do que deixar passar um dado pessoal real. Essa prioridade segue os critérios de desempate do edital — menor número de falsos negativos como fator decisivo.

Revisão humana — o diferencial

O VIGIL não toma decisões finais. O sistema de revisão humana identifica automaticamente casos ambíguos em 7 contextos especiais — artístico, acadêmico, jornalístico, servidor público, histórico, jurídico e autoria — e gera um relatório priorizado com fundamentação na LGPD para cada caso.

Na amostra oficial de 99 registros, o sistema sinalizou 15 itens para revisão, com explicação legal e nível de prioridade, permitindo verificação manual eficiente sem comprometer a sensibilidade do detector.

Qualidade de código

173 testes automatizados cobrindo padrões regex, detector, revisão humana, integração, pré-processamento, exclusões e métricas de avaliação. Output em CSV e JSON estruturado com metadados, estatísticas por tipo de PII e detalhes de cada detecção.

Resultado

Projeto submetido na categoria Acesso à Informação do 1º Hackathon Participa DF (resultado previsto para 24/02/2026).