Torna ai case studies
DDT Reader
~90k documenti · meno manualità · più qualità e tracciabilità del dato
Sintesi
Sistema end-to-end per trasformare DDT da PDF a dati strutturati, con validazioni e controlli di coerenza, per ridurre inserimento manuale e rendere i dati riutilizzabili in reporting e integrazioni.
Python
OCR
Computer Vision
Contesto e problema
Processo amministrativo ad alto volume e alta variabilità (formati diversi e campi non standardizzati), fortemente dipendente dall’inserimento manuale. Impatti: tempi lunghi, errori di trascrizione, bassa tracciabilità e difficoltà nel riutilizzo dei dati estratti.
Approccio e soluzione
Progettazione di una pipeline operativa completa: ingestione documenti, estrazione dei campi chiave, normalizzazione/standardizzazione, validazione tramite regole e controlli, gestione eccezioni e stati, archiviazione per data/stato e output su database/Excel. Approccio human-in-the-loop: il sistema propone l’estrazione, l’operatore valida solo dove necessario, mantenendo affidabilità in contesti reali.
Risultati
~90.000 DDT storici gestiti come baseline di processo. Riduzione stimata di 4.500+ ore-uomo di inserimento manuale. Miglioramento della coerenza e della tracciabilità dei dati, con processo replicabile e scalabile su volumi crescenti.
Key learnings
Progettazione di flussi robusti in presenza di variabilità reale; gestione delle eccezioni e dei fallback; data quality e controlli di coerenza; distinzione tra automazione “teorica” e automazione utilizzabile in produzione; progettazione di strumenti di verifica e correzione per l’operatore.
Stack
Python
OCR
Computer Vision
OpenAI API
Flask
Pandas
Excel Automation
Filesystem Watcher
VPS