OCR per PDF

Se si dispone di un file PDF contenente il risultato della scansione di un documento, come si può recuperare il testo del documento originale? Basta sottoporre il file PDF ad una applicazione di OCR, che traduca l’immagine dei caratteri in caratteri veri e propri. Una applicazione gratuita che ho provato e funziona abbastanza bene è

Advanced OCR Free

L’utilizzo è piuttosto semplice. Lavora pagina per pagina e non è velocissima, ma comunque svolge il suo compito. Pare che la qualità della estrazione dei caratteri dipenda dallo zoom con cui si osserva la pagina, perciò raccomando di procedere nel seguente modo:

  1. andare sulla pagina che si intende recuperare
  2. zoomare su di essa (comando Zoom In); attenzione che questa operazione è un po’ lenta e non sempre mostra la pagina zoomata; per quanto sembri strano, cliccando in sequenza su Zoom In e Zoom Out si ottiene di vedere la pagina zoomata
  3. mentre la pagina è zoomata, cliccare su OCR: nella finestra a destra appare il testo letto, che consiglio di copiare al volo in un file testo o word o libreoffice
  4. ripetere i passi per la pagina successiva

 

 

 

Conversione on line di documenti, immagini, video, audio e disegni

Sia per lavoro sia per diletto, capita di aver bisogno di convertire un documento da un formato ad un altro, ad esempio:

  • creare una preview grafica della prima pagina di un documento Word, da usare come thumbnail del documento stesso in una pagina web
  • ottenere da un PDF un documento Word o OpenOffice.org il più fedele possibile al PDF originale ma modificabile
  • trasformare un filmato mp4 o wmv in un flash tipo YouTube

Queste ed altre conversioni sono realizzate gratuitamente e senza necessità di installare software – e neppure di registrarsi purché il file sia inferiore a 1 GB – dal sito Zamzar. L’elenco delle conversioni possibili è impressionante. La procedura è molto semplice:

  1. Si carica il file sul sito
  2. Si sceglie il formato finale desiderato
  3. Si fornisce un indirizzo di email
  4. Dopo aver trasformato il file, Zamzar invia all’indirizzo di email un avviso contenente un link
  5. Cliccando sul link si viene portati su una pagina di Zamzar dove è scaricare il file finale

Tutto qui.  Provato su alcuni file, ha dato risultati di qualità ed in tempi rapidi. La traduzione da PDF a DOC è decisamente buona, con una resa molto fedele degli elementi grafici del PDF.

Zamzar offre a pagamento un più evoluto e veloce di quello gratuito, quindi nel mail che dà accesso al file finale inserisce in bella vista il link per iscriversi al servizio a pagamento, mentre il link per accedere al file tradotto gratuitamente è quello sottostante e meno in evidenza (vedi figura: il link “buono” è quello indicato dal mio cursore a manina):

Il messaggio inviato da Zamzar che dà accesso al file convertito

Stampa un file PDF in formato poster

Vuoi stampare su grande formato un documento PDF ma hai a disposizione solo la stampantina A4 di casa ? Puoi fare così:

  • Installa PDFCreator, un software che aggiunge al tuo pc una stampate virtuale che trasforma qualsiasi documento che mandi in stampa in un file PDF o anche in una immagine JPEG; sfrutteremo proprio questa possibilità non molto nota di PDFCreator per i nostri scopi
  • Installa Posteriza, un software che ingrandisce e suddivide una immagine in tanti fogli stampabili sulla stampantina A4

Il gioco è abbastanza semplice:

  1. Si apre il file PDF
  2. Si stampa sulla stampante virtuale PDFCreator, specificando come formato di uscita non “PDF” (altrimenti avremmo un file identico a quello iniziale!) ma “JPG”
  3. Si lancia Posteriza e si apre il file JPG
  4. Seguendo le semplici istruzioni di Posteriza, si espande l’immagine su più fogli e poi li si stampa da Posteriza sulla stampantina

La stessa procedura può essere usata per spalmare il file PDF di partenza su più file PDF, basta che nel passo 4 si stampi di nuovo sulla stampante virtuale PDFCreator anziché sulla stampantina…

Monta, smonta e commenta file PDF

Ecco alcune utility gratuite per creare, montare e smontare file PDF in Windows. La prima (piuttosto famosa) è PDFCreator, che si presenta come una stampante virtuale: stampando su di essa da qualunque applicazione Windows si ottiene il file PDF corrispondente al documento o disegno stampato.

La seconda (poco nota) è mbtPdfAsm, che permette di smontare e rimontare i file PDF: assemblare due file PDF insieme, estrarre singole pagine, cambiare i metadata dei file PDF. Oltre ad avere un nome impossibile, non è di facilissimo utilizzo perché è da richiamare via linea di comando. Per usarla in modo più semplice è disponibile BeCyPDFAsm, che non è altro che una interfaccia utente per mbtPdfAsm.

Ed infine un’altra utilità non facile da trovare: Jarnal – scritta in Java – consente di sovrapporre ad un file PDF disegni e scritte, utilissima ad esempio per compilare moduli in formato PDF.