Il contesto
Cliente: PMI manifatturiera del sud Italia, 45 dipendenti, ~400 documenti in entrata al mese (fatture fornitori, DDT, ordini clienti). Un addetto amministrativo passava circa 12 ore a settimana a digitare dati dai PDF nel gestionale.
Cosa abbiamo automatizzato
Un agente AI che:
- Riceve il PDF (via email dedicata o upload manuale).
- Classifica il tipo di documento (fattura/DDT/ordine).
- Estrae i campi chiave usando un mix di OCR + LLM:
- intestazione fornitore/cliente,
- data, numero, totale,
- righe articolo con quantità e prezzi.
- Valida contro il gestionale (esiste il fornitore? il codice articolo è noto?).
- Inserisce o mette in coda umana se ci sono incertezze.
Stack scelto
{
"ocr": "pdfplumber + Tesseract per scansioni",
"estrazione": "Anthropic Claude (structured output con JSON schema)",
"validazione": "regole Python + match fuzzy su anagrafica gestionale",
"queue": "Redis + workers Node.js",
"ui_revisione": "interfaccia React custom"
}
Niente vendor lock-in pesante: l'estrazione AI è dietro un'interfaccia astratta, scambiabile.
Misurazioni prima/dopo
| Metrica | Prima | Dopo (3 mesi) |
|---|---|---|
| Tempo medio per documento | 4-6 min | 35 sec (auto) o 1.5 min (revisione) |
| Errori a valle (correzioni post-inserimento) | ~3% | ~0.6% |
| Ore/settimana dell'addetto su questa attività | 12 | 2 |
| Tempo di chiusura mese | 8 giorni lavorativi | 3.5 giorni |
L'addetto non è stato licenziato: ha riallocato le 10 ore recuperate su attività di controllo e analisi che prima erano ferme.
Cosa NON ha funzionato al primo colpo
- PDF scansionati di qualità bassa: il tesseract iniziale dava 78% accuracy. Soluzione: pre-processing con OpenCV + secondo passaggio LLM con prompt che indica le aree incerte.
- Codici articolo non standard: alcuni fornitori usano descrizioni libere. Abbiamo introdotto un mapping fuzzy "descrizione fornitore → codice interno" che impara dalle correzioni manuali.
Cosa ci portiamo via
Il valore di un'automazione AI non è "fa tutto da sola" — è "fa il 90% in modo prevedibile, gestisce il 10% in coda umana, e ogni correzione migliora il sistema".
Se hai un flusso documentale ripetitivo e misurabile, è un candidato ideale per iniziare. Parliamone.