Autore |
Messaggio |
Eopteryx
|
Inviato: 12/03/2010, 22:40 |
|
Iscritto il: 06/02/2009, 9:02 Messaggi: 1428 Località: Verona - Roma - Foggia e sporadicamente Padova
Nome: Filippo Di Giovanni
|
Fortunatamente gran parte degli articoli che si scaricano dalla rete (o forse tutti) in pdf hanno il testo che viene riconosciuto come tale da programmi come Acrobat o Foxit. Ciò permette di prendere il pdf in ugrofinnico e tradurlo con uno dei tanti traduttori on-line, come ad es quello di Google. Ora la questione (stupida) è questa: come diavolo si fa ? Ho degli articoli (ovviamente in sanscrito antico) e li vorrei scannerizzare per poi farmeli tradurre, anche alla buona, da Google. Tuttavia se provo a scannerizzarli con il programma della stampante, anche spuntando la voce "documento" (e non "foto"), comunque Foxit Reader non mi riconosce il testo...  Dove sbaglio ? Grazie in anticipo, Pippo
_________________ "Non posso separare il piacere estetico che provo nel vedere una farfalla dal piacere scientifico di sapere che cosa è" (V.Nabokov)
|
|
Top |
|
 |
Pactolinus
|
Inviato: 12/03/2010, 23:09 |
|
Iscritto il: 14/01/2010, 0:10 Messaggi: 3603 Località: Liguria, Genova
Nome: Giovanni Ratto
|
Io uso Acrobat e, quando devo fare un PDF, apro il programma e gli do crea PDF da scanner. A questo punto fa tutto lui. Non conosco Foxit ma credo che dovrebbe avere un'opzione simile. 
_________________ GiovanniPactolinus gigas (Paykull, 1811)
|
|
Top |
|
 |
Julodis
|
Inviato: 12/03/2010, 23:32 |
|
Iscritto il: 30/12/2009, 22:20 Messaggi: 31564 Località: Roma
Nome: Maurizio Gigli
|
Per fare quello che chiedi, che credo di aver già spiegato in altra discussione, ma non ricordo quale, ci sono due modi: 1 - il più semplice - Devi avere Acrobat versione completa, non il Reader, usare il comando nuovo documento -> da scanner, poi fare la scansione facendogli fare il riconoscimento caratteri. Acrobat permette di salvare un pdf da scansione in tre modi: come immagine (ogni pagina è una singola immagine), come testo mantenendo l'aspetto originale (memorizza la pagina come immagine ma vi associa il ricoscimento del testo presente), trasformando la pagina in testo più eventuali immagini (riduce molto le dimensioni del file, i caratteri sono perfetti a qualunque fattore di zoom, ma perde l'aspetto originale. La maggior parte dei pdf che si scaricano dal web sono fatti nel secondo modo. Tieni conto che i pdf salvati nel primo o secondo modo con Acrobat possono essere convertiti in uno degli altri due formati in qualsiasi momento, ma quelli salvati nel terzo modo così restano. 2 - il più preciso - Fai la scansione usando un programma OCR (riconoscimento caratteri). Io preferisco Fine Reader. Fatta la scansione delle varie pagine gli fai fare il riconoscimento impostando la lingua usata nel documento (es.: tedesco) + una per i nomi specifici, ecc, (ci vorrebbe il latino, ma se l'ocr non lo prevede va bene anche l'italiano). Con Fine Reader si possono usare anche 4 o 5 lingue contemporaneamente. Comunque, una volta riconosciuto il testo esporti il documento come file di Word, lo apri con questo programma o uno compatibile (es.: Open Office Writer), controlli il testo per eventuali errori dell'ocr (che ci sono quasi sempre), fai le correzioni, sistemi, eventualmente, la formattazione del testo, salvi il file e infine lo esporti in un file pdf usando un qualsiasi porogramma, anche gratuito, che crei una stampante pdf virtuale. Con un po' di pratica e pazienza si riesce ad avere documenti identici all'originale ma come se fossero stampati il giorno prima, anche partendo da vecchi testi ingialliti, macchiati e mezzi strappati. Inoltre sono estremamente compatti (in questo modo ho convertito un testo di 200 pagine, di cui una quarantina con foto a colori, in un pdf che stava su un floppy da 1,44 Mb).
Entrambi i metodi richiedono almeno un programma commerciale, scaricabile gratuitamente solo in versione di prova (Acrobat per il primo, Fine Reader per il secondo).
I pdf risultanti sono ovviamente "cercabili" e il testo può essere selezionato e quindi tradotto con un programma di traduzione.
|
|
Top |
|
 |
gabrif
|
Inviato: 12/03/2010, 23:40 |
|
Iscritto il: 14/03/2009, 12:59 Messaggi: 3204 Località: Milano
Nome: Gabriele Franzini
|
Ciao, all'ottima esposizione precedente aggiungo solo che in caso uno sia sprovvisto di software ci sono anche dei siti gratuiti che fanno OCR, per esempio http://www.onlineocr.net/ ; non li ho mai provati, però, io uso MS Office. Saluti G.
|
|
Top |
|
 |
Apoderus
|
Inviato: 13/03/2010, 0:31 |
|
Iscritto il: 08/02/2010, 23:01 Messaggi: 6163 Località: Vicenza
Nome: Silvano Biondi
|
Vorrei raccontarvi una storia e poi farvi una domanda, per me importantissima ma probabilmente fuori tema. Il libro che ho cercato più di qualsiasi altro nella mia vita è sicuramente "Der Trichterwickler" di Erich Wasmann, edito nel 1883. Coniuga le mie due passioni, gli attelabidi "sigarai" e il darwinismo. L'autore, gesuita, ragiona per 300 pagine sulla teoria dell'evoluzione, riferendola agli istinti del Deporaus betulae. Dopo 30 anni di vane ricerche in tutta Europa, mi capita di trovarne una copia (e quasi contemporaneamente di scaricarne il pdf dalla rete). Eccolo: Accade però che il mio tedesco è appena sufficiente per decifrare faticosamente qualche chiave analitica, difficile leggere un libro, impossibile leggerlo in caratteri gotici  . Risultato: ho il libro in mano, il pdf nel computer, ma non posso leggerlo. Ora la domanda: esiste un programma in grado di fare il miracolo e di tradurre il testo ? 
_________________
Silvano
|
|
Top |
|
 |
Creedence
|
Inviato: 13/03/2010, 0:34 |
|
Iscritto il: 23/09/2009, 23:06 Messaggi: 1061
Nome: Stefano Ziani
|
Vale anche per i caratteri cirillici?
|
|
Top |
|
 |
Julodis
|
Inviato: 13/03/2010, 1:50 |
|
Iscritto il: 30/12/2009, 22:20 Messaggi: 31564 Località: Roma
Nome: Maurizio Gigli
|
Apoderus ha scritto: Ora la domanda: esiste un programma in grado di fare il miracolo e di tradurre il testo ?  Si. Come ho spiegato prima, una volta che si ha il pdf col testo selezionabile, si può fare. Basta selezionare il testo (consiglio di farlo per una o poche pagine alla volta, altrimenti i traduttori on-line vanno in tilt. Ma dal tedesco si può anche usare Office Power Translator, scaricabile dal web gratuitamente) e tradurlo con un traduttore che supporti il tedesco (praticamente tutti). I caratteri gotici sono un problema dell'OCR. Se li riconosce, tutto a posto, altrimenti è un problema! La difficoltà più grossa, se devi partire dal pdf di cui hai inviato un paio di pagine, è che la qualità è un po' scarsa, e l'ocr farà un sacco di errori, sempre che riesca a funzionare. Se invece hai scansioni di qualità migliore, le possibilità di riuscita aumentano. Creedence ha scritto: Vale anche per i caratteri cirillici? Si, funziona pure in cirillico, sempre a patto di avere un ocr che lo supporta. Recentemente ho fatto una prova con qualche pagina della Fauna USSR e il risultato è stato accettabile. Certamente qualche parola è rimasta intraducibile, ma nel complesso ho ottenuto un testo comprensibile, quel tanto che bastava per capire di che parlava. Giusto per dare un'idea ho fatto adesso una prova con una pagina in cirillico. Sono partito da un pdf non riconoscibile come testo scaricato dal web, l'ho aperto con ABBYY Fine Reader, impostando il riconoscimento in Russo, Inglese, Francese, Italiano, ho fatto il riconoscimento della prima pagina. Poi ho esportato il testo in Word, l'ho selezionato e copiato sulla pagina di Google translator e l'ho fatto tradurre sia in italiano che in inglese. Infine ho copiato il risultato nello stesso documento di Word del testo in russo e ho trasformato il tutto in pdf con un programma freeware. Vi allego il risultato. Ovviamente ci sono alcuni errori, specialmente nei nomi di generi e specie (dovuti all'ocr e soprattutto alla non ottimale qualità del pdf iniziale). ALcune parole russe non sono state tradotte (o perchè mancanti nel dizionario del traduttore, ma se ne possono provare altri, o perchè lette male dall'ocr), ma il senso si capisce.
|
|
Top |
|
 |
Hemerobius
|
Inviato: 13/03/2010, 10:11 |
|
Iscritto il: 02/02/2009, 23:32 Messaggi: 5642 Località: da Ferrara ad Alghero
Nome: Roberto A. Pantaleoni
|
Col gotico non ho mai provato, col cirillico sì. Tutto sta nella qualità dell'acquisizione (il che non vuol dire solo chiarezza ma anche allineamento, righe "curve" per la deformazione delle fotocopie di libri rilegati sono un problema quasi insuperabile). Se la cosa mi interessa molto esporto con copia/incolla una piccola parte del testo in word (incolla speciale/testo non formattato) poi CORREGGO i caratteri che l'OCR ha letto male e solo dopo faccio la traduzione. Per il gotico dovrei provare, ma la vedo difficile. Silvano se mi dici dove scaricare il libro posso fare un tentativo (tra l'altro quel gotico lì è abbastanza comprensibile  , ti assicuro che c'è di peggio). Ciao Roberto 
_________________ verum stabile cetera fumus
|
|
Top |
|
 |
Velvet Ant
|
Inviato: 13/03/2010, 10:33 |
|
Amministratore |
 |
Iscritto il: 02/02/2009, 23:30 Messaggi: 7102 Località: Capaci (Pa)
Nome: Marcello Romano
|
Maurizio, forse hai allegato il pdf originale, piuttosto che il risultato della tua elaborazione Per quanto riguarda la traduzione di vocaboli cirillici di carattere entomologico, ho trovato in rete un buon dizionario, dove sono elencati molti termini entomologici con la corretta traduzione e numerosi nomi comuni di insetti, in lingua russa, con la corrispondenza del binomio latino. Prima di indicarvi l'indirizzo di questo dizionario, vi faccio un esempio. Provate a tradurre, con Google traduttore, quali sono questi tre insetti che hanno, in russo, i seguenti nomi comuni Se utilizzate la ricerca in Google ci arrivate lo stesso, ma non vale: dovete utilizzare solo Google traduttore e dirmi di che specie si tratta. 1) калоед-бык 2) майский хрущ восточный 3) навозник обыкновенный
_________________ Marcello Romano
|
|
Top |
|
 |
Creedence
|
Inviato: 13/03/2010, 10:34 |
|
Iscritto il: 23/09/2009, 23:06 Messaggi: 1061
Nome: Stefano Ziani
|
Spasiba balshoje a tutti.
|
|
Top |
|
 |
Velvet Ant
|
Inviato: 13/03/2010, 10:51 |
|
Amministratore |
 |
Iscritto il: 02/02/2009, 23:30 Messaggi: 7102 Località: Capaci (Pa)
Nome: Marcello Romano
|
Silvano, ho trovato sul web una versione speciale di ABBYY Finereader che permette il riconoscimento dei caratteri gotici e che, a quanto pare, è utilizzata dal progetto Gutenberg tedesco che ad oggi ha messo in linea più di 4.000 volumi (trovo qui, alla nota 5, questa informazione). C'è la possibilità di scaricare gratuitamente una versione di prova che ti permette il riconoscimento in OCR di 50 pagine di testo. La trovi qui. Facci sapere se funziona 
_________________ Marcello Romano
|
|
Top |
|
 |
Hemerobius
|
Inviato: 13/03/2010, 10:51 |
|
Iscritto il: 02/02/2009, 23:32 Messaggi: 5642 Località: da Ferrara ad Alghero
Nome: Roberto A. Pantaleoni
|
1) kaloed-bull 2) il maggiolino orientale 3) Beetle ordinaria Forse è riconoscibile il secondo, il terzo è un "coleottero comune" Roberto 
_________________ verum stabile cetera fumus
|
|
Top |
|
 |
Velvet Ant
|
Inviato: 13/03/2010, 10:59 |
|
Amministratore |
 |
Iscritto il: 02/02/2009, 23:30 Messaggi: 7102 Località: Capaci (Pa)
Nome: Marcello Romano
|
Prova ora a inserire gli stessi termini in questo dizionario 
_________________ Marcello Romano
|
|
Top |
|
 |
Apoderus
|
Inviato: 13/03/2010, 11:30 |
|
Iscritto il: 08/02/2010, 23:01 Messaggi: 6163 Località: Vicenza
Nome: Silvano Biondi
|
Un grazie a tutti gli amici che si stanno prodigando per aiutarmi. Stamattina ho solo un minuto, ma nel pomeriggio conto di dedicarmici, provando i vostri suggerimenti e rispondendo più ampiamente. 
_________________
Silvano
|
|
Top |
|
 |
Eopteryx
|
Inviato: 13/03/2010, 11:31 |
|
Iscritto il: 06/02/2009, 9:02 Messaggi: 1428 Località: Verona - Roma - Foggia e sporadicamente Padova
Nome: Filippo Di Giovanni
|
Grazie a tutti.  Mi metto alla ricerca di Fine Reader o Acrobat seguendo la procedura di MaurizioJ. Alla prossima 
_________________ "Non posso separare il piacere estetico che provo nel vedere una farfalla dal piacere scientifico di sapere che cosa è" (V.Nabokov)
|
|
Top |
|
 |
|