PublicPolicyDB
Milhares de documentos públicos dispersos viram uma base organizada, classificada por tema e pesquisável — capturada, lida e estruturada sem trabalho manual.
- 8.629
- documentos processados
- 5.685
- PDFs extraídos
- 2.944
- textos estruturados
- Docker
- Flask
- Postgres
- Selenium
- PyMuPDF
O PublicPolicyDB coleta documentos presidenciais brasileiros, extrai o texto de PDFs e páginas, classifica cada peça por área de política pública e entrega tudo em uma interface de busca e análise. O ponto não é o tema — é o padrão: um pipeline que vai do raspar ao classificar ao pesquisar, aplicável a qualquer pilha de contratos, relatórios ou comunicados que hoje ninguém consegue consultar. Documento estruturado é onde a IA aplicada rende mais, desde que o sistema entenda o conteúdo e mantenha consistência — não só gere texto.

Tem um problema parecido? Vamos conversar sobre como adaptar.