Torna ai case studies

DDT Reader

~90k documenti · meno manualità · più qualità e tracciabilità del dato

Sintesi

Sistema end-to-end per trasformare DDT da PDF a dati strutturati, con validazioni e controlli di coerenza, per ridurre inserimento manuale e rendere i dati riutilizzabili in reporting e integrazioni.
Python OCR Computer Vision

Contesto e problema

Processo amministrativo ad alto volume e alta variabilità (formati diversi e campi non standardizzati), fortemente dipendente dall’inserimento manuale. Impatti: tempi lunghi, errori di trascrizione, bassa tracciabilità e difficoltà nel riutilizzo dei dati estratti.

Approccio e soluzione

Progettazione di una pipeline operativa completa: ingestione documenti, estrazione dei campi chiave, normalizzazione/standardizzazione, validazione tramite regole e controlli, gestione eccezioni e stati, archiviazione per data/stato e output su database/Excel. Approccio human-in-the-loop: il sistema propone l’estrazione, l’operatore valida solo dove necessario, mantenendo affidabilità in contesti reali.

Risultati

~90.000 DDT storici gestiti come baseline di processo. Riduzione stimata di 4.500+ ore-uomo di inserimento manuale. Miglioramento della coerenza e della tracciabilità dei dati, con processo replicabile e scalabile su volumi crescenti.

Key learnings

Progettazione di flussi robusti in presenza di variabilità reale; gestione delle eccezioni e dei fallback; data quality e controlli di coerenza; distinzione tra automazione “teorica” e automazione utilizzabile in produzione; progettazione di strumenti di verifica e correzione per l’operatore.

Stack

Python OCR Computer Vision OpenAI API Flask Pandas Excel Automation Filesystem Watcher VPS