VIGIL — Detector de PII

Detector automático de informações pessoais identificáveis (PII) em pedidos de acesso à informação. 1º lugar no Hackathon Participa DF.

PythonBERTimbauTransformerspandas

GitHub

O desafio

Quando você pede informações ao governo — como gastos de um órgão ou andamento de uma obra —, sua solicitação pode conter seus dados pessoais: nome, CPF, e-mail, telefone. Antes de tornar essas respostas públicas, alguém precisa encontrar e proteger esses dados para cumprir a LGPD. Imagine fazer isso à mão em milhares de documentos.

O VIGIL faz esse trabalho automaticamente. Ele lê cada documento, encontra os dados pessoais e os sinaliza para proteção — como um revisor incansável que nunca deixa passar nada. E quando encontra um caso duvidoso, não decide sozinho: separa para um humano avaliar com calma.

O projeto nasceu no 1º Hackathon em Controle Social "Desafio Participa DF", que propunha soluções para democratizar o acesso à informação no Distrito Federal.

Arquitetura em 4 camadas

O VIGIL processa cada texto em etapas complementares, maximizando a sensibilidade:

Pré-processamento — Normalização Unicode (NFKC), remoção de caracteres de controle, preservação de dígitos e separadores.
Padrões estruturados (regex) — Detecção de CPF, e-mail, telefone e RG em formatos brasileiros, com filtros anti-falsos positivos para identificadores institucionais (SEI, NUP, CDA, CNH, matrícula).
NER com BERTimbau — Modelo de Named Entity Recognition treinado em português para detectar nomes de pessoas físicas, com lista de 130+ exclusões de nomes institucionais.
Sinais contextuais — Marcadores de 1ª pessoa ("meu CPF", "meu nome"), indicadores de contato ("endereço", "WhatsApp") como metadados para análise.

Estratégia recall-first

Métrica	Valor
Precision	96,7%
Recall	100%
F1-Score	~0,98

O recall de 100% é uma decisão estratégica: em proteção de dados, é preferível sinalizar um falso positivo do que deixar passar um dado pessoal real. Essa prioridade segue os critérios de desempate do edital — menor número de falsos negativos como fator decisivo.

Revisão humana — o diferencial

O VIGIL não toma decisões finais. O sistema de revisão humana identifica automaticamente casos ambíguos em 7 contextos especiais — artístico, acadêmico, jornalístico, servidor público, histórico, jurídico e autoria — e gera um relatório priorizado com fundamentação na LGPD para cada caso.

Na amostra oficial de 99 registros, o sistema sinalizou 15 itens para revisão, com explicação legal e nível de prioridade, permitindo verificação manual eficiente sem comprometer a sensibilidade do detector.

Qualidade de código

173 testes automatizados cobrindo padrões regex, detector, revisão humana, integração, pré-processamento, exclusões e métricas de avaliação. Output em CSV e JSON estruturado com metadados, estatísticas por tipo de PII e detalhes de cada detecção.

Resultado

Premiado com 1º lugar na categoria Acesso à Informação do 1º Hackathon em Controle Social "Desafio Participa DF", com prêmio de R$ 8.000. A combinação de recall perfeito, revisão humana integrada e cobertura de testes foi decisiva na avaliação.