VIGIL — Detector de PII
Detector automático de informações pessoais identificáveis (PII) em pedidos de acesso à informação, desenvolvido para o 1º Hackathon Participa DF.
O desafio
O 1º Hackathon em Controle Social "Desafio Participa DF" propunha soluções para democratizar o acesso à informação no Distrito Federal. Pedidos de acesso à informação frequentemente contêm dados pessoais identificáveis (PII) — CPF, e-mail, telefone, nomes completos. Antes de disponibilizar as respostas, é necessário detectar e proteger esses dados para cumprir a LGPD. Fazer isso manualmente em milhares de documentos é inviável.
Arquitetura em 4 camadas
O VIGIL processa cada texto em etapas complementares, maximizando a sensibilidade:
- Pré-processamento — Normalização Unicode (NFKC), remoção de caracteres de controle, preservação de dígitos e separadores.
- Padrões estruturados (regex) — Detecção de CPF, e-mail, telefone e RG em formatos brasileiros, com filtros anti-falsos positivos para identificadores institucionais (SEI, NUP, CDA, CNH, matrícula).
- NER com BERTimbau — Modelo de Named Entity Recognition treinado em português para detectar nomes de pessoas físicas, com lista de 130+ exclusões de nomes institucionais.
- Sinais contextuais — Marcadores de 1ª pessoa ("meu CPF", "meu nome"), indicadores de contato ("endereço", "WhatsApp") como metadados para análise.
Estratégia recall-first
| Métrica | Valor |
|---|---|
| Precision | 96,7% |
| Recall | 100% |
| F1-Score | ~0,98 |
O recall de 100% é uma decisão estratégica: em proteção de dados, é preferível sinalizar um falso positivo do que deixar passar um dado pessoal real. Essa prioridade segue os critérios de desempate do edital — menor número de falsos negativos como fator decisivo.
Revisão humana — o diferencial
O VIGIL não toma decisões finais. O sistema de revisão humana identifica automaticamente casos ambíguos em 7 contextos especiais — artístico, acadêmico, jornalístico, servidor público, histórico, jurídico e autoria — e gera um relatório priorizado com fundamentação na LGPD para cada caso.
Na amostra oficial de 99 registros, o sistema sinalizou 15 itens para revisão, com explicação legal e nível de prioridade, permitindo verificação manual eficiente sem comprometer a sensibilidade do detector.
Qualidade de código
173 testes automatizados cobrindo padrões regex, detector, revisão humana, integração, pré-processamento, exclusões e métricas de avaliação. Output em CSV e JSON estruturado com metadados, estatísticas por tipo de PII e detalhes de cada detecção.
Resultado
Projeto submetido na categoria Acesso à Informação do 1º Hackathon Participa DF (resultado previsto para 24/02/2026).