Vai al contenuto
LOCRAI
Tutti gli articoli

source: ocr-su-scansioni-qualita-revisione.md

category: dataQuality

published: 5 agosto 2025

read_time: 11m

OCR su scansioni: DPI, inclinazione e la coda di revisione

Le scansioni impongono vincoli diversi dai PDF digitali. Qualità d'immagine, timbri, skew: come impostare il flusso e quando serve la revisione umana.

Non tutti i PDF sono uguali. Una fattura arrivata via PEC come file nativo si comporta diversamente da uno stesso documento stampato, firmato, timbrato e scansionato in ufficio. Per questi ultimi l'OCR è l'unica via — e la qualità dell'immagine determina gran parte del risultato, indipendentemente da quanto sia «intelligente» il motore a valle.

Risoluzione e DPI: il minimo operativo

Per testo amministrativo standard, 300 dpi è un buon minimo. Sotto quella soglia, caratteri piccoli (note a piè di pagina, codici articolo) diventano ambigui. Al di sopra, il guadagno marginale va pesato con tempi di upload e storage. Per fotografie da smartphone, controllate messa a fuoco e illuminazione: un'immagine sfocata non recupera a 600 dpi.

  • Preferite scansione in bianco e nero o scala di grigi per testo — il colore raramente aiuta l'OCR
  • Evitate compressione aggressiva: artefatti JPEG si confondono con tratti di penna
  • Multipagina: una pagina storta in un DDT lungo può corrompere l'intera tabella

Skew, timbri e «rumore» visivo

Documenti leggermente ruotati puniscono le tabelle: le colonne non allineano e l'OCR mescola celle. Timbri e firme sopra importi o partita IVA sono il caso classico da revisione — nessun motore dovrebbe forzare un numero coperto al 40%. Anche pieghe, macchie e fax di bassa qualità entrano in questa categoria: meglio segnalare incertezza che inventare cifre.

Un OCR che non ammette dubbio sui campi incerti è più pericoloso di uno che chiede una seconda occhiata.

La coda di revisione umana

In un flusso maturo, la revisione non è fallback del fallimento totale: è filtro mirato. Il sistema marca campi a bassa confidenza, totali non conciliati, codici anomali. L'operatore vede documento e valori affiancati, corregge solo l'eccezione, il resto passa. Così il tempo umano scala con la percentuale di documenti «sporchi», non con il volume totale.

Metriche utili — senza numeri di marketing

  • Percentuale documenti in revisione per tipologia (fattura vs DDT vs ordine)
  • Tempo medio di revisione per eccezione — non solo «minuti risparmiati»
  • Campi corretti al primo passaggio sui documenti digitali vs scansioni — due curve diverse
  • Errori scoperti a valle (contabilità, magazzino) dopo l'estrazione

Prevenire a monte

Standardizzare come si scansiona in ufficio — stessa risoluzione, stesso formato, evitare «foto del documento sul tavolo» — riduce la coda più di qualsiasi tuning del motore. Dove possibile, chiedete ai fornitori il PDF nativo: è gratis in termini di qualità.

LOCRAI tratta scansioni e PDF digitali con percorsi distinti e mette in evidenza i campi da verificare, così la qualità del dato resta sotto controllo anche quando il documento di partenza non lo è.

Vuoi vederlo sui tuoi documenti?

Ti mostriamo LOCRAI al lavoro su un tuo flusso reale, in una demo breve e concreta.

Richiedi una demo