Contexto
Um escritório de advocacia recebia diariamente centenas de documentos em formatos variados — PDFs digitalizados, imagens de certidões, contratos escaneados e notas fiscais. Antes de qualquer trabalho jurídico, cada documento precisava ser triado e categorizado manualmente por uma equipe de assistentes.
Problema
A triagem manual consumia 4 a 6 horas de trabalho por dia, criava gargalos no início dos processos e gerava inconsistências na categorização quando o volume era alto. Documentos classificados de forma errada atrasavam o trabalho dos advogados e aumentavam o risco de erros em prazos críticos.
Solução
Desenvolvi um pipeline de IA que processa automaticamente cada documento recebido. O fluxo começa com OCR (Tesseract + pré-processamento de imagem) para extrair o texto bruto, seguido de um LLM (GPT-4o-mini, com fine-tuning nos documentos do próprio escritório) que classifica o tipo de documento e extrai metadados-chave — número do processo, datas, partes envolvidas.
Implementei um sistema de confiança: quando o modelo tem confiança acima de 80%, a classificação é automática; abaixo disso, o documento entra em uma fila de revisão humana. Esse threshold foi calibrado para minimizar falsos positivos em categorias críticas (como intimações com prazo). Os dados estruturados são armazenados no PostgreSQL com os documentos originais no S3. Um feedback loop contínuo usa as correções humanas para re-treinar o modelo mensalmente.
Resultado
Após dois meses em produção, o sistema processa mais de 5.000 documentos por dia com 94% de precisão, 8x mais rápido que o processo manual. O custo de triagem caiu 60%, e a taxa de documentos com erro de classificação foi de 12% para 2%. A equipe de assistentes passou a focar apenas nos casos de baixa confiança, que representam menos de 6% do volume total.