Vai al contenuto
LOCRAI
Tutti gli articoli

source: estrazione-dati-da-fatture-pdf.md

category: automation

published: 17 aprile 2025

read_time: 12m

Estrazione dati da fatture PDF: metodi, errori comuni e come evitarli

Manuale, template, OCR o AI: come si estraggono i dati da una fattura PDF, dove falliscono totali e righe, e cosa chiedere prima di automatizzare.

La fattura PDF è il documento più automatizzato in assoluto — eppure è anche quello dove gli errori costano di più: un totale sbagliato si propaga in contabilità, un codice IVA errato in liquidazione, una riga mancante in magazzino. Capire i metodi di estrazione e i punti di rottura tipici evita di scambiare data entry manuale con data entry «automatico» da correggere.

Quattro approcci, dal più lento al più scalabile

  • Manuale — operatore legge e digita: flessibile, non scala, errori umani
  • Template / coordinate fisse — regole per fornitore noto: veloce finché il layout non cambia
  • OCR + regole — testo estratto e pattern cercati nel flusso: ok su layout ripetibili
  • AI / IDP — interpretazione di layout nuovi, tabelle e campi semantici: scala sulla variabilità

PDF nativo vs scansione: non è la stessa fattura

Un PDF generato dal gestionale del fornitore ha spesso text layer o struttura elettronica: l'estrazione può essere quasi istantanea. Una fattura stampata e scansionata è un'immagine: serve OCR, con tutti i vincoli di DPI e qualità. Un flusso serio rileva il tipo di file e sceglie il metodo — non tratta tutto come scansione.

Errori frequenti — e perché succedono

  • Totali — separatore decimale (virgola vs punto), sconti in fondo pagina, arrotondamenti IVA non allineati alle righe
  • Partita IVA e codici — OCR confonde 0/O, 1/l; campi spezzati su due righe
  • Righe — tabelle con descrizioni multilinea, righe spezzate su più pagine, quantità in colonna stretta
  • Duplicati — stessa fattura da PEC e da upload, numeri protocollo diversi
Automatizzare l'estrazione senza validazione sui totali è spostare l'errore dal momento della digitazione al momento della registrazione contabile.

Cosa chiedere prima di automatizzare

Portate un campione rappresentativo: mix di fornitori, almeno qualche scansione, casi «sporchi». Chiedete tasso di campi corretti al primo passaggio, non solo «accuracy» generica. Verificate controlli incrociati: totale documento vs somma righe, aliquote IVA ammesse, presenza partita IVA fornitore in anagrafica.

Revisione mirata, non revisione totale

L'obiettivo non è zero click umani su ogni file, ma zero digitazione ripetitiva: il sistema estrae, segnala le anomalie, l'operatore interviene solo lì. Un flusso che vi obbliga a ricontrollare ogni campo ha poco vantaggio sul manuale.

Per fatture passive con molti fornitori, LOCRAI estrae campi e righe con validazione integrata e mette in coda solo le eccezioni — così misurate il risparmio sul tempo che oggi spendete a copiare, non su promesse astratte.

Vuoi vederlo sui tuoi documenti?

Ti mostriamo LOCRAI al lavoro su un tuo flusso reale, in una demo breve e concreta.

Richiedi una demo