Hallo Freunde,
für einen Bekannten möchte ich einen Reiseführer von 1892 digitalisieren.Soll heißen: Seite für Seite einscannen und in ein Format bringen,womit man dann,ähnlich einer Diashow, Seite für Seite öffnen kann.Noch besser wäre,wenn man gezielt die Seite z.B. Nr.127 öffnen könnte.Ich verwende Windows 7 Home Premium 64 Bit.Man bräuchte dazu ein Text-Erkennungsprogramm? Habe ich aber nicht.
Bitte auch dazu einen Hinweis.
Besten Dank im voraus.
Gruß Winfried8
Anwendungs-Software und Apps 14.489 Themen, 73.614 Beiträge
Hallo Winfried,
Warum verwendest du nicht einfach das pdf Format?
Das Geht mit jeder halbwegs guten Scannersoftware
seiten in der richtigen Reihenfolge scannen, und zu einer Datei zusammenfügen..
Mit einer OCR (Texterkennung) wirst du vermutlich nicht glücklich werden
ich denk mal das da selbst Profiprogramme mit Schrift und Sprache von 1892
nicht klarkommen
Hebbe
Danke Hebbe1,
Du bist ja richtig schnell mit der ersten Antwort.PDF-Format leuchtet mir ein,ist überall und von jedem lesbar.Aber mein Scanner gibt die Datei im Bildformat .jpg aus.Müßte dann alles über PDF-Drucker (z.B PDF24)drucken.
Ich probiere es.
Gruß und Dank von
Winfried8
Das der nur .jpg kann, glaube ich dir jetzt nicht
selbst die billigsten teile können min. 8 Formate.
Schreib doch mal mit welchen Gerät und Software du die Sache realisieren willst
Bin mir sicher das es nur eine Einstellung ist
schau doch mal beim abspeichern, dort hast du die Möglichkeit das Format zu wählen.
Also,ich verwende den Brother DCP-130C von 2007.Damit hatte ich bislang immer gute Ergebnisse.
Nun habe ich 10 Minuten im Handbuch geblättert aber nichts über Ausgabeformate gefunden.Eigentlich doof.
Morgen mache ich einen Scan und schreibe Dir die Formate.Ich bin jetzt am Laptop und der Scanner steht oben am PC.
Also bis Morgen.
Winfried8
JPG ist aufgrund seines Kompressionsverfahrens für Scans von Textseiten eher nicht zu empfehlen. Ich würde die Scans als TIF-Dateien ablegen. Damit sollte jedes halbwegs gängige Bildbearbeitungs- bzw. Layoutprogramm klarkommen. Am besten erstmal mit zwei, drei Seiten testen, bevor man 200 Dateien hat, die dann doch nicht im gewünschten Programm importiert werden können.
Ich würde mal folgenden Weg vorschlagen: Eignen tut sich dafür das PDF-Format. Jeder
Reader ermöglicht den Zugriff auf eine bestimmte Seite und das Diashow-ähnliche anzeigen
ist auch möglich.
Dazu scannst du im Querformat gleich zwei Seiten ein. Ist bequemer und spart Platz und
Arbeit. Als Hilfe eignet sich sicher ein Word oder freies Office mit Zugriff auf den Scanner.
Die Grafiken lassen sich dort seitenfüllend einfügen. Zwischendurch immer mal speichern,
sollte was schiefgehen.
Ist die Einscannarbeit getan, exportierst du das ganze als PDF. Damit die Seiten mit den
Buchseiten übereinstimmen, musst du schauen das die Buchseite 1 z.B. mit der PDF-
Seite 1 übereinstimmt.
Sollte mir da jetzt ein Denkfehler unterlaufen sein, bitte ich um Korrektur. Gruß Andy
Auch Dir, lieber Andy11,sage ich herzlich Dank.
Du nennst ja auch das PDF-Format.Damit wäre ich also richtig.
Du schreibst: ...mit Office Zugriff auf den Scanner.Welche Einstellung gibt es in Office?
Der Hinweis mit dem Zwischenspeichern ist auch wirklich o.k.,falls was schief läuft.
Werde auch Deine Hinweise beachten.
Vielen Dank und Gruß von Winfried8
Hallo,
eine OCR Software für Texterkennung ist nicht zwingend nötig.
Ich würde mit einer Bildbearbeitung, wie z.B
IrfanView (Freeware: http://www.irfanview.de/) die Seiten einscannen und als PDF Datei speichern. Eine Plugin / Addons Sammlung (Erweiterungen) ist ebenfalls erhältlich.
Nach der Installation kann man in IrfanView unter "Options" und "Change language" zur deutschen Programmoberfläche wechseln.
In IrfanView heisst das Scantool Copy Shop, (Menüleiste: Datei, Copy Shop)
Dann sind die Seiten mit jedem herkömmlichen PDF Reader (z.B Foxit Reader http://www.chip.de/downloads/Foxit-Reader_13014804.html) zu lesen. Seitennummern können eingegeben und Lesezeichen gesetzt werden.
Wenn mann mehrere PDF Seiten als ein Dokument zusammenfügen, oder die Reihenfolge ändern will, kann man das mit PDF Split and Merge (Freeware: deutsch) (http://www.chip.de/downloads/PDF-Split-and-Merge_29495960.html) tun.
Danach sind alle Seiten innerhalb des Dokumentes sofort einzusehen. Dazu muss man links im PDF Reader die Seitenansicht aktivieren.
Tipps:
Zum Programm Start ("Start, Alle Programme") von PDF Split and Merge, im Programm Ordner die Datei pdfsam doppelklicken, oder mit der rechten Maustaste "Senden an, Desktop (Verknüpfung erstellen")
Ich würde beim einscannen der Seiten schon einmal eine Seitenzahl mit angeben (z.B Das Buch_001.pdf).
Wenn alle Seiten eingescannt sind, PDF Split and Merge starten und unter "hinzufügen" den Ordner mit den PDF Dateien öffnen. Danach den ganzen Inhalt dieses Ordners in ene einzige Datei umwandeln.
Um alle Seiten des Ordners zu markieren ("Großbuchstaben Taste halten, danach zuerst das erste , dann das letzte Dokument anklicken").
Gruß
Jörg
Hallo Jörg,
danke für Deinen Beitrag.Irfan View und Foxit Reader sind auf meinem PC.Auch dieser Weg bietet sich an.Du hast ja alles genau beschrieben.Ich werde auch diesen Weg versuchen und das beste Resultat nutzen.Nun geht es an die Arbeit.
Vielen Dank für Deine Mühe.
Gruß
Winfried8
Wenn es sich um ein wertvolles Buch handelt, brauchst Du einen Buchscanner. Bei einem normalen Flachbettscanner besteht die Gefahr, dass durch das Aufdrücken auf das Vorlageglas die Bindung beschädigt wird.
http://www.filmscanner.info/PlustekOpticBook3600Corporate.html
Weiterhin, steht die Frage, ob man das Originallayout zu 100 % erhalten will / muss oder ob es primär um die Inhalte (also den Text, ggf. auch ein paar Bilder) geht.
Wenn das Originallayout erhalten bleiben soll, müssen die gescannten Seiten als Grafikdateien in die PDF übernommen werden. Dabei entsteht eine sehr große PDF-Datei.
Wenn man hauptsächlich den Text braucht (bzw. wenn der Text editierbar sein muss), braucht man OCR-Software (Optical Character Recognition = optische Zeichenerkennung), die die gescannten Texte in editierbare Texte umwandelt. Bekannte OCR-Programme sind z.B. ABBYY Finereader oder Omnipage.
http://www.amazon.de/ABBYY-Finereader-Anniversary-inkl-Transformer/dp/B005JFRA8G/ref=sr_1_1?ie=UTF8&qid=1326390553&sr=8-1
http://www.amazon.de/Nuance-Communications-Inc-OmniPage-Professional/dp/B0052DBFN6/ref=sr_1_2?ie=UTF8&qid=1326390590&sr=8-2
Evtl. ist eines dieser Programme auch schon beim Scanner mitgeliefert worden.
Das was Du Dir vorgenommen hast, ist eine interessante Aufgabe, die aber viel Zeit, Geduld und für die richtige Technik viel Geld kostet. (Manchmal kriegt man das entsprechende Buch für ein paar Euro im Antiquariat, dann kann man es dem Freund gleich im Original schenken...)
Gruß, mawe2
Hallo mave2,
auch Dir gillt mein Dank für Deine Ausführungen.
Es ist kein wertvolles Buch,ein Reiseführer im Format DIN A 5 mit 220 Seiten.Man kann es also doppelseitig gut einscannen.Das Format kann also 100 % erhalten bleiben.
Auch Deine Hinweise sind mir willkommen.es geht in der Tat überwiegend um Text.Farbige Grafiken sind nicht dabei.Ich muß schauen ob zu der Software meines MFG eine von Dir genannte Software dabei ist.Bislang habe ich Textdokumente im jpg-Format gescannt und als PDF ausgedruckt.Stimmt,dadurch wird die Datei größer.
Auch ist richtig,wenn Du schreibst,daß es eine große Aufgabe ist.Ich habe es noch nie gemacht und es reizt mich,es eben mal zu tun.
Das Ergebnis ist dann auch anderen zugänglich.
Für die große Resonanz zu meiner Aufgabe bedanke ich mich bei allen Beteiligten nochmals sehr herzlich.
Und ich werde zu gegebener Zeit über mein Ergebnis berichten.
Gruß von
Winfried8
Hallo mave2
Glaubst du wirklich , das es mit OCE klappen könnte ein vernünftiges Ergebnis zu erzielen?
Text - Schrift - Grammatik ist 120 Jahre alt !
Da ist vermutlich das abtippen einfacher wenn man die Sprache noch lesen (verstehen) kann
bei min. 172 Seiten
Hebbe
Das geht schon. Es kommt natürlich auf die Vorlagequalität an (welches Papier, wie stark verschmutzt, fleckig usw.). Gute OCR-Programme kommen auch mit solchen Schriften klar (120 Jahre sind ja nun nicht sooooo alt!)
Gruß, mawe2
Hallo Winfried8!
Ich habe selber schon einige Bücher mit 200 und mehr Seiten eingeskannt. Ich schreibe einfach mal meine Meinung dazu auf.
1) Was genau ist dein Ziel? Soll die fertige Datei ein PDF Dolument sein, welches aus zusammengefügten Bildern (und somit nicht durchsuchbar) besteht oder soll sie eben durchsuchbar sein?
Anmerkung: Durchsuchbar bedeutet, daß ein Buch als Textdatei erkannt wird und nach Wörtern darin gesucht werden kann. Ist diese PDF-Datei jedoch als Bild hinterlegt, weiss der PC nicht, das er einen Text vor sich hat und somit ist keine Wörtersuche möglich.
Womit wir bei Frage 0) angekommen wären: Wie will/ kann dein Freund diese Datei denn nutzen? Hat er einen PC/ Notebook zu Verfügung oder einen E-Reader oder ein Tablet?
Anmerkung: Selbst wenn er im Moment keinen E-Reader hat, wie sieht es in einem Jahr aus?
2) Welche Voraussetzungen hast du um dieses Ziel zu erreichen?
Dazu: Wenn man der Brother-Seite glauben darf (http://www.brother.de/g3.cfm/s_page/65190/s_level/24390/s_product/DCP130CG1/s_detailType/specs) sind die Voraussetzungen sehr gut, denn dein Drucker
a) hat eine OCR Software dabei (sieht man daran, dass er Scan-to-text unterstützt)
b) er unterstützt die Ausgabe-Formate PDF/ TIFF/ JPEG.
Mein Vorschlag:
Schritt 0: Anlegen des Ordners "Reisefuehrer"
Schritt 1: Skanne die Seiten ein (nicht einzeln, sondern als Doppelseiten, spart viel Zeit!). ---- Dabei sollte die Auflösung mindestens 300 DPI betragen. Sollte die Schrift kleiner sein sind 400 DPI besser. Warum? OCR-Software ist für 300 DPI bei Schriftgrößen von circa 12 optimiert, Eine Erhöhung der DPI bringt Qualitätsmäßig recht wenig, erhöht aber die Skanzeit erheblich. Die Dateigröße würde auch erheblich anwachsen und alle nachgeordneten Schritte würden infolgedessen langsamer ablaufen. Man könnte an dieser Stelle auch z.B. mit 175 DPI skannen. Das hätte aber den Nachteil, das ein späteres OCR mit diesem Ausgangsmaterial nicht möglich ist.
---- Das Programm des Druckers bietet häufig die Möglichkeit, die Skaneinstellung Kontrast, etc zu verändern. Ich nutze diese Möglichkeit nicht und bearbeite die Dateien im Nachhinein mit Irfanview. Nimm hier also einfach die vom Programm vorgegeben Einstellungen.
---- Ausgabeformat: Um sich alle Optionen für eine spätere Nutzung der eingeskannten Dateien offenzuhalten, wäre hier das TIFF Format am besten. Da sich das TIFF-Format sehr gut als Ausgangsformat für eine eventuelle Texterkennung, Umwandlung in PDF oder JPEG eignet.
---- Wenn dein Programm dir die Wahlmöglichkeit lässt: Speichern als einzelne Seiten auswählen.
---- Normalerweise hat man die Möglichkeit den Namen der Datei anzugeben. Diese werden dann vom Programm automatisch durchnummeriert. Du hast also dann z.B. die Dateien Reisefuehrer1 bis Reisefuehrer200. Hier lauert ein Problem und zwar: Die nachfolgenden Programme arbeiten mit der Batchfunktion, d.h. eine Stapelverarbeitung. Die funktioniert so, dass du die Erste Datei auswählst und angibts, welche Veränderungen an dieser Datei ausgeführt werden sollen und an allen anderen ausgewählten Dateien ebenfalls. Jetzt kann es sein, dass ein Programm nicht die Dateien in der Reihenfolge 1, 2, 3 etc öffnet und verarbeitet, sondern in der Reihenfolge 1, 11, 12, ..., 2, 21, 22, etc.. Sobald die Reihenfolge der Dateien wichtig wird, muss der Name der also Dateien angepasst werde (z.B. Reisefuehrer001, Reisefuehrer002).
---- Abspeichern: im Unterordner "Skannergebnisse"
---- Dauer der Aktion: nicht ganz eine Stunde. Hängt von Skannermodell, der Geschwindigkeit der Datenübertragung und eventuell von der Geschwindigkeit des Rechners ab. Anmerkung: Dein Drucker kann auch direkt auf eine Speicherkarte abspeichern, da kann der PC auch aus bleiben.
Schritt 2: Anlegen des Unterordners "Seiten getrennt"
---- Trenne die Doppelseiten mit Hilfe dieser Software (http://scantailor.sourceforge.net/). Die Seiten könne hier auch gerade gerichtet und Ränder enfernt werden.
----- Speicher die Ergebnisse im Unterordner "Seiten getrennt"
----- Ausgabefromat; weiterhin TIFF
Schritt 3: Anlegen des Unterordners "getrennte Seiten bearbeitet"
---- Bearbeiten der Dateien mit "Irfanview". Hier hilft nur ausprobieren. Sollte der Reiseführer zur Gänze aus Text bestehen, wäre ein Umwandlung in schwarz/ weiß emfehlendswert.
---- das Ziel dieses Schrittes ist die Verbesserung der Lesbarkeit und die Entfernung von Punkten auf den Skanns. Im gleichen Arbeitsschritt kann man auch Anmerkungen, etc, entfernen. Dazu sei gesagt, dass die geschickte Umwandlung in s/w bereits eine Menge der vorhandenen Punkte entfernt, der Rest muss dann leider von Hand und Seite für Seite gesucht und entfernt werden. Sorry!
---- Hier trennen sich die Bearbeitungsschritte von OCR und nicht-OCR.
---- Bei nicht-OCR Verarbeitung kann die Auflösung der Dateien gesenkt und somit auch die Dateigröße verringert werden.
---- Abspeichern der Ergebnisse im Unterordner "getrennte Seiten bearbeitet" Eventuell mit den Unterordner "OCR" und "nicht-OCR".
---- Für das Umwandeln in s/w kann sehr gut die Batchfunktion angewender werden.
Schritt 4.1: Anlegen des Unterordners "Zusammmenfuegen"
---- Ich verwende für diesen Arbeitsschritt die OCR Software. Bei mir ist es nämlich so, dass die OCR-Software, die im Druckerprogramm integriert ist, auch einzeln eingesetzt werden kann.
---- Man wählt als Datenquelle den Ordner "getrennte Seiten bearbeitet" aus.
---- Man gibt das Ausgabeformat (hier pdf) und den Speicherort an. Und drückt Start.
---- Anmerkung OCR-Software: Die beiden Großen sind die bereits genannten Nuance und Abbyy. Etwas kleiner ist I.R.I.S.. Es stehen zwar Testversionen zum Download bereit, diese sind aber in ihrem Funktionsumfang stark eingeschränkt und aus diesem Grund für deine Zwecke nicht sonderlich geeignet. Ganz großer Nachteil bei I.R.I.S.: auch die gekaufte Professional- Version hat eine maximale Seitenanzahl von 50.
Schritt 4.2 Anlegen des Unterordners "OCR"
---- Öffnen der OCR-Software.
---- Datenquelle: der Unterordner "OCR" aus Schritt 3.
---- Wichtig: Einstellung der richtigen Sprache.
---- Wenn vorhanden die Lernfunktion der Software verwenden. Spart viel Zeit bei der Nachbearbeitung.
---- Ausgabeformat festlegen. Liegt ganz bei dir. Ich verwende das txt. Format.
---- Start! Das kann durchaus etwas dauern. Sollte aber im Bereich wenige Minuten bleiben.
Schritt 5: Fehler und Fehlerquellen suchen! ;-)
---- Anmerkung: OCR: die Hersteller versprechen zwar eine super Erkennungsfunktion und versprechen ein niedrige Fehlerquote und das stimmt! Aaaber: das gilt für Einzelseiten, im Schriftformat 12 Punkte, einer heutigen Standardschrift ohne Knicke im Papier, ohne Verfärbungen (Vergilben wegen schlechter Papierqualität), ohne Kaffeekleckse, ohne ... uswusf. Solltest du also den Reiseführer in ein Textformat umwandeln wollen, kannst du dich auf Stunden der Nachbearbeitung freuen. Das Problem ist hierbei, dass der Text durchgelesen werden muss, da einige Fehler zwar keine Falschschreibung sind, aber trotzdem falsch erkannt wurden. Ein beliebter Fehler ist das Verwechseln von e/s/c, h/b und nr/m. Sehr beliebt in englischen Texten ist das Verwechseln von he und be. Und wenn dann noch sowas blödes wie ß dazu kommt, in Kombination mit einer schlechteren Papierqualität - du glaubst nicht wie kreativ OCR-Programme werden können;-) Kandinsky ist nichts dagegen. Hier wäre ein Beispiel: http://www.archive.org/stream/nasa_techdoc_19640006154/19640006154_djvu.txt
Schritt 6: Die Ordner mit den Zwischenergebnissen können nach einiger Zeit gelöscht werden. Die Ausgangsordner und die Ergebnisse würde ich aber behalten (Speicherplatz kostet ja heute nischt mehr).
mfg Monika
P.S.: Vielleicht kann man dir ja hier helfen? http://www.pgdp.net/phpBB2/ Da müsste man sich aber anmelden. Ist aber kostenlos.
Hallo Winfried8,
wenn du durchsuchbare Texte willst, kann ich mich nur der ausführlichen Beschreibung von Monika anschließen. Das riecht aber richtig nach Arbeit.
Wenn du mit einem "Bilderbuch" zufrieden bist, solltest du dir Horlands Scan2PDF anschauen:
http://www.horland.de/scan2pdf.html
Gruß
Peter
Hallo Monika,
also, Du scheinst mit Deiner Ausführung alle zu übertreffen.Das ist so umfangreich,daß ich erst mal alles sortieren muß.Ich glaube auch,das mein Brother noch nicht richtig konfiguriert ist.Die OCR-Software ist nicht installiert und bei "Bild" und "Datei" einscannen gibt er jeweils .jpg-IrfanView Files aus.Kann aber gleich mit pdf24 in PDF ausdrucken.
Nun muß ich sehen ,welchen Weg ich gehen kann und welcher zum besten Ergebnis führt.Ich würde es am liebsten ohne OCR-Software versuchen,wenn es nicht zwingend notwendig ist.Ich melde mich nochmal.
Für Deine Bemühungen auf jeden Fall herzlichen Dank und alles Gute weiterhin.
Gruß
Winfried8
Hallo,
BSG1981 schrieb: Ausgabeformat: Um sich alle Optionen für eine spätere Nutzung der eingeskannten Dateien offenzuhalten, wäre hier das TIFF Format am besten. Da sich das TIFF-Format sehr gut als Ausgangsformat für eine eventuelle Texterkennung, Umwandlung in PDF oder JPEG eignet.
Wenn man schon eine OCR Software benutzt, dann würde ich das Ergebnis als PDF Datei (oder Word) abspeichern. Es werden dann Text und Bilder getrennt und bleiben somit mit jedem PDF Reader durchsuchbar.
Und eben nicht wie bei einer Bilddatei (z.B .jpg, .tiff) zu einer auf Pixel basierenden Datei. die nun wirklich nicht durchsuchbar ist.
Dann braucht man auch keine OCR Software einzusetzen. Dann kann man direkt alles als Bilder scannen. Das Tiff Format ist ein unkompromiertes Bild Format, also im Ergebnis erheblich größer als JPG.
Das PDF Format ist somit bestens geeignet.
Gruß
Jörg
Hallo Jörg,
Du hast schon recht:das Pdf-Format ist richtig und ich verwende es auch.Habe mit OCR auch keine guten Erfahrungen gemacht.
Danke für Deinen Hinweis.
Gruß
Winfried8
Hallo Monika,
also, ich bin mal Deinem Pfad gefolgt und habe heute mit meinem "Mammut-Programm" begonnen.Bin dabei allerdings den einfachsten Weg gegangen.
Ich habe mein MFG neu konfiguriert und als Ausgabeformat PDF gewählt.Zuvor einen Ordner"Reiseführer" erstellt und 20 Doppelseiten mit 001. begonnen zu scannen.Dazu den Text der Kapitel.Ich muß sagen,das sieht schon recht ordentlich aus.Die Größe habe ich in IrfanView dem Bildschirm angepaßt und den Zoom fixiert.Das alles erst mal auf Probe.DPI übernommen mit 300.Ich habe es bei den Doppelseiten belassen (ist ja nur DIN A5).Frage: Könnte man die Doppelseiten auch im PDF-Format mit Deinem Vorschlag scantailor.sourceforge.net trennen oder geht das nur im TIFF-Format? Umwandlung in s/w werde ich noch ausprobieren,weil dadurch die Schrift besser lesbar wird.
Machst Du das eigentlich beruflich? Ich habe den Eindruck.
Gruß
Winfried8
Hallo,
hier einen Link zum TIFF Format: http://de.wikipedia.org/wiki/Tagged_Image_File_Format
Das Zitat Das Tagged Image File Format (TIFF oder auch kurz TIF) ist ein Dateiformat zur Speicherung von Bilddaten dürfte klären, warum es sich nicht für durchsuchbaren Text eignet.
Das BSDG1981 einmal eine nur mit einem Scanner erstellte Bilddatei im PDF Format, richtig als nicht für durchsuchbar angibt, aber andererseits das TIFF Format als geeignetes Ausgabeformat erklärt, erschließt sich mir nicht.
Grundlage für ausgelesenen Text aus einm Scanvorgang ist eine OCR Software, deren Ausgabeformate sind.: JPG, TIFF, PDF, WORD, und andere. JPG und TIFF sind Bildformate, die aus Pixeln bestehen. Word und PDF können Text und Bilder enthalten. Durchsuchbar nach Text sind somit nur Word und PDF.
Ich bin mir nicht sicher, ob eine OCR Software nach dem Einlesen des Textes, das Ergebnis direkt als Text in eine PDF Datei schreiben kann, oder ob das Ergebnis als Bild in eine PDF Datei eingebettet wird. Das würde allerdings den OCR Scan nach Text sinnlos machen. Denn dann wäre das Ergebnis tatsächlich nicht durchlesbar.
Aber vielleicht macht die ein oder andere OCR Software beim Erstellen einer PDF Datei nicht anderes, als ein PDF Druckertreiber. in Word. Der Text wird innerhalb einer PDF Datei nicht als Pixel, sondern als Text behandelt.
Denn wenn man eine Word Datei mittels "Datei, drucken, Auswahl: PDF Drucker" in ein PDF Format umwandelt, dann ist diese jedenfalls mit einem PDF Reader durchsuchbar.
Könnte man die Doppelseiten auch im PDF-Format mit Deinem Vorschlag scantailor.sourceforge.net trennen oder geht das nur im TIFF-Format?
Für das PDF Format würde ich, wie bereits erwähnt PDF Split and Merge ("teilen und zusammenfügen") (Freeware: deutsch) (http://www.chip.de/downloads/PDF-Split-and-Merge_29495960.html) benutzen.
Gruß
Jörg
Egal, ob man den Text als BILD oder (mittels OCR) als TEXT haben möchte: TIFF ist immer das bevorzugte, qualitativ hochwertige und universell anwendbare Dateiformat für Scanergebnisse. (Ob man später eine PDF, JPG oder sonst was draus macht, ist eine andere Frage.)
TIFF gibt es sowohl komprimiert (mit verschiedenen Kompressionalgorithmen) als auch unkomprimiert.
JPG ist definitiv kein gutes Dateiformat für Scanergebnisse, da es einfach zu schlecht ist... Die Art und Weise, wie JPG Bildinhalte komprimiert, führt zu Artefakten, die insbesondere die glatten, nicht horizontal oder vertikal verlaufenden Kanten zerstört. Damit ist es inbesondere für Scans, die anschließend mit OCR in Text umgewandelt werden sollen, eine schlechte Wahl.
Grundlage für ausgelesenen Text aus einm Scanvorgang ist eine OCR Software, deren Ausgabeformate sind.: JPG, TIFF, PDF, WORD, und andere.
Ein OCR-Programm gibt wohl kaum TIFF oder JPG aus! Das sind Bildformate, die man ja mit OCR gerade vermeiden will. PDF und WORD kommen für eine Ausgabe aus einem OCR-Programm schon eher in Frage.
Aber vielleicht macht die ein oder andere OCR Software beim Erstellen einer PDF Datei nicht anderes, als ein PDF Druckertreiber. in Word. Der Text wird innerhalb einer PDF Datei nicht als Pixel, sondern als Text behandelt.
Das ist ja gerade der Sinn von OCR!
Gruß, mawe2
@mehrere meiner Vorschreiber/-inen
Hallo alle miteinander!
1.) Welche Dateinformate kann Scan Tailor berarbeiten? Scan Tailor kann Dateien der Formate tif, tiff, jpeg, jpg und png bearbeiten.
[http://sourceforge.net/apps/mediawiki/scantailor/index.php?title=User_Guide]
2.) Die OCR Software wird nicht extra installiert. Die versteckt sich im Druckerprogramm der Herstellersoftware. Für deinen Drucker steht ein Update auf der Herstellerseite, vielleicht liegt es ja daran?
3.) Die Ausgabe als Word-Datei kann schwierig werden. Das liegt an der Formatierung des Textes und der Seite. Z.B. liegen die Seiten älterer Bücher nicht mehr ganz plan auf. Das führt z.B. dazu das Schrift als kursiv erkannt wird, obwohl sie es eigentlich nicht ist. Das Word-Format (bzw. andere Textformate, welche mehr als nur den reinen Text und einen Absatz speichern können) sind in der OCR Verarbeitung komplizierter bzw. älterer Vorlagen einfach zu problematisch. Deshalb wähle ich immer die Ausgabe als .txt.
4.) Ich an deiner Stelle würde den Reiseführer nicht doppelseitig einskannen bzw. es kommt auch hier drauf an, was das Endergebnis können muss. Bei Direktumwandlung würde ich die Seiten einzeln einskannen, doppelseitig nur wenn das Ausgabeformat des Skanns TIFF ist und ich diese Dateien dann weiterbearbeite. In diesem Fall würde ich auch die Ausgabe in einzelnen Dateien wählen. Also: die Seiten einzeln einskannen und in pdf kapitelweise Abspeichern ODER doppelseitig einskannen und im TIFF-Format und in einzelnen (Doppel-)Seiten abspeichern, dann per ScanTailor trennen.
5.) Ganz wichtig für die Auswahl der Bearbeitungsschritte ist die gewünschte Qualität und Eigenschaften des Ergebnisses.
a) wenn das Ergebnis lediglich auf einem Notebook oder einem PC-Bildschirm ausgegeben werden soll, dann reicht die direkte Umwandlung des Skanns in eine PDF-Datei. Das könntest du dann auch mit deinem jetzigen Druckerprogramm machen. Dann wird die Ausgabedatei aber sehr wahrscheinlich als (Bild)-PDF abgespeichert, d.h. die Datei wird entsprechend groß. Hier wäre ein Kapitelweises einskannen besser, weil die einzelne Datei dann kleiner bleibt.
b) Wenn die Datei später auch auf einem e-Reader ausgegeben oder durchsuchbar sein soll, dann ist der direkte Weg über dein jetziges
Druckerprogramm leider nichts. In diesem Fall hilft nur der Weg den ich in meinem ersten Posting beschrieben habe.
Gründe: das mit dem Bild bzw. Text PDF ist klar. Auch wenn das menschliche Auge einen Text in einer (Bild-) PDF Datei sieht, ist es für den Computer nur ein Bild. Weshalb aber benötigt man für einen e-Reader eine bessere Dateiqualität als für ein(en) PC/ Notebook? Das ist schwer zu erklären, da bin ich schonmal bei einem Vortrag mit gescheitert. Das PDF-Format ist von Hause aus ein Druckformat, d.h. es wurde entwickelt um den Datenaustausch im Druckbereich zu vereinfachen. In diesem Bereich darf es auf keinen Fall zu Veränderungen im Druckbild kommen. Diese können z.B. schon durch unterschiedliche Gerätekonfigurationen bei Verlag und Drucker herrühren. Im Klartext heißt das: einmal in pdf "gesetzt" kann am "Druckbild" nichts mehr geändert werden und die Datei wird auf allen Ausgabegeräten (egal ob Drucker oder Bildschrim) gleich aussehen. Nehmen wird also einmal an, du würdest deinen Reiseführer von 189x einskannen und den direkten Weg nach PDF wählen. Die Bildqualität wird schon nicht die beste sein. Du sagst, dass das Buch ein Format von circa DIN A 5 hat. Jetzt ist DIN A 5 ein gutes Stück größer als jeder E-Reader. Um deine PDF Datei lesen zu können hast du nur zwei Möglichkeiten
ba) das Bild wird runterskaliert und eine ganze Dateiseite wird auf dem Bildschirm des Readers ausgegeben. Die Schrift wird entsprechend klein und vermutlich nicht mehr zu lesen sein. Möglichkeit
bb) das Bild wird nicht runterskaliert und die Schrift bleibt lesbar. Dann wird die Darstellung aber zu groß für den Bildschirm und es muss gescrollt werden - und zwar nicht nur hoch - runter, sondern auch links - rechts. Ich stelle es mir sehr ungemütlich vor, ein Buch mit 200 Seiten, hoch-runter und links-rechts scollend zu lesen.
6.) Nein, Ich mache das nicht beruflich, aber ich beschäftige mich schon etwas länger privat damit.
7.) Ich benutzte Read I.R.I.S. und dort hat man die Möglichkeit zwischen Bild-, Bild und Text- oder Text-PDF als Ausgabeformat zu wählen. Das gilt allerdings nur für die einzeln gekaufte variante, ob die Variante aus der Druckersoftware auch diese Auswahlmöglichkeit unterstützt, ist mir nicht bekannt.
8.) Das Problem mit der Umwandlung in Text, dem eigentlichen OCR, ist folgendes: Das geskannte Bild wird mit einem Algorithmus x in einen Text umgewandelt. Unterstützt wird dieser Vorgang noch von Algorithmen die z.B. schräge oder nicht plan liegende Vorlagen korrigieren. Dieser Text wird noch einmal mit einem Rechtschreibprogramm bearbeitet. (Aus diesem Grund ist es sehr wichtig, die korrekte Sprache einzustellen. Wenn es denn möglich ist.) So, und diese Rechtschreibprüfung ist nicht so dolle. Und Jeder dieser Umwandlungsschritte kann neue Fehler produzieren bzw. vorhandene potenzieren. Beispiel: Nehmen wir einmal an, ein älteres Buch wird eingeskannt. Gewählt wird der direkte Weg in das PDF Format, Ausgabe also in eine PDF-Datei mit, sagen wir mal, 100 Seiten. Nehmen wir weiter an es wurde durchsuchbare Text-PDF als Ausgabeformat gewählt. Dann hat der Bearbeiter keinen Zugriff mehr auf die Datei bis sie fertig vor ihm auf dem Desktop liegt. Und genau in dieser Zeit laufen die Vorgange ab, die ich am Anfang dieses Absatzes erklärt habe. Das kann z.B. bedeuten, du hast eine Text-PDF-Datei in der massenweise die kreativsten Fehler drin sind. Beispiel: In deinem Buch kommt 20mal das Wort Sommer vor. Du suchst ganz genau die --eine-- Stelle. Jetzt hat blöderweise die Software gerade diesen Sommer als Somrner erkannt und als Text abgespeichert. Du darfst jetzt also deine 100 Seiten Buch durchsuchen oder kreativ werden und dir Varianten "Sommer" ausdenken und nach diesen suchen. Und schon ist der Vorteil von Text-PDF als Ziel einer direkten Umwandlung dahin. Oder wenn du wissen willst ob das Wort "Wirkstruktur" in deinem Buch vorkommt. Du kannst einem Suchergebnis nicht vertrauen. Das gleiche Problem ergibt sich auch bei falsch interpretierten Absatzformatierungen, Seitenformatierungen etc.
9.) PDF Split and Merge - kenn ich und habe ich auch schon benutzt. Soweit ich weiss kann dieses Programm aber nur einzelne Seiten aus einer mehrseitigen Datei herauslösen bzw. zu einer mehrseitige Datei zusammenführen, aber nicht eine eingeskannte Doppelseite trennen. Denn eine eingeskannte Doppelseite wird von dem Programm als --eine-- Dateiseite erkannt und nicht als zwei einzelne Seiten.
So. Gute Nacht!
Monika
Was hat denn OCR mit dem Drucker zu tun??
Und was ist ein Druckerprogramm der Herstellersoftware?
Wieso schreibst Du einskannen oder skannen immer mit "k"?
Gruß, mawe2
Winfried hat ein Multifunktionsgerät (Brother DCP-130C). Diese Drucker haben in der Regel ein Treiber, der die Benutzeroberfläche für alle Funktionen des Druckers bereitstellt (ist zumindest bei meinem Samsung so) und eben auch die Funktion Skannen mit der Option "OCR". Aus diesem Grund spreche ich im Zusammenhang mit dem Druckerprogramm von OCR.
"Druckerprogramm der Herstellersoftware" - muss an der späten Stunde gelegen haben. Das sollte Druckerprogramm (oder Treiber oder was immer du möchtest) des Herstellers heißen.
Darum.
Monika
OK, hab's verstanden.
Ich benutze für solche Arbeiten immer spezialisierte Geräte: Zum Scannen nehme ich einen Scanner, zum Drucken einen Drucker. Daher bringe ich "Drucken" und "OCR" gar nicht zusammen.
Danke.
Gruß, mawe2
Hallo,
du schreibst
Egal, ob man den Text als BILD oder (mittels OCR) als TEXT haben möchte: TIFF ist immer das bevorzugte, qualitativ hochwertige und universell anwendbare Dateiformat für Scanergebnisse. (Ob man später eine PDF, JPG oder sonst was draus macht, ist eine andere Frage.)
eine OCR Software legt einen Scan - das war jedenfalls früher so - erst einmal in ihrem eigenen Format an. Dann kann dieser auch später noch bearbeitet werden.
Ich habe den Text und gefundene Bilder immer direkt ins Word Format transportiert, um später noch Änderungen vornehmen zu können.
Text als TIFF zu speichern macht dann Sinn, wenn das vorhandene Format unbedingt beibehalten werden muss. Das ist evtl. bei Winfried8 und seinem alten Buch eine Lösung. Aber er möchte es ja unbedingt als durchsuchbar anlegen.
>cite>Ein OCR-Programm gibt wohl kaum TIFF oder JPG aus! Das sind Bildformate, die man ja mit OCR gerade vermeiden will. PDF und WORD kommen für eine Ausgabe aus einem OCR-Programm schon eher in Frage.
wie GSG1981 schrieb: Dazu: Wenn man der Brother-Seite glauben darf (http://www.brother.de/g3.cfm/s ... Type/specs) sind die Voraussetzungen sehr gut, denn dein Drucker
a) hat eine OCR Software dabei (sieht man daran, dass er Scan-to-text unterstützt)
b) er unterstützt die Ausgabe-Formate PDF/ TIFF/ JPEG.
scheint das doch der Fall zu sein.
Deswegen habe ich darauf hingewiesen, das für durchlesbaren Text das WORD, oder PDF Format geeignet sind.
Aber vielleicht macht die ein oder andere OCR Software beim Erstellen einer PDF Datei nicht anderes, als ein PDF Druckertreiber. in Word. Der Text wird innerhalb einer PDF Datei nicht als Pixel, sondern als Text behandelt.
Sollte eigentlich nur zeigen, das der PDF Druckertreiber, den man z.B in Word integrieren kann, nicht anderes macht, als eine OCR Software. Nur das der Druckertreiber einen Text und die OCR Software einen Scan verarbeitet.
Das ist ja gerade der Sinn von OCR!
War mir schon klar.
Ich denke, das Winfried8 genügend Hinweise bekommen hat, um erste Versuche zu starten und sich dann für seinen Weg zu entscheiden.
Gruß
Jörg
Für mich sind das zwei völlig verschiedene Vorgänge, die nichts miteinander zu tun haben.
Mit OCR macht man aus dem BILD eines Textes editierbaren Text. (Egal, in welchem Format man den dann speichert...)
Mit einem PDF-Treiber macht man aus beliebigen Inhalten (das können Word-Texte, Word-Texte mit Bildern, Excel-Tabellen und Inhalte aus beliebigen anderen Programmen sein) PDF-Dateien. Das ist doch etwas völlig anderes als OCR!
Dass manche OCR-Programme gleich selbst anbieten, eine PDF zu erzeugen, ist eine andere Frage, es ist eine zusätzliche Option zum eigentlichen OCR.
Der "Workflow" für solche Vorgänge ist bei immer so:
1. Druckvorlage scannen (dabei entsteht immer eine Rastergrafik, ich speichere sie sinnvollerweise als TIFF-Datei)
2. TIFF-Datei mit OCR in editierbaren Text umwandeln (den speichere ich meist als Word-Dokument)
3. aus dem Word-Dokument wird (wenn nötig) eine PDF-Datei gemacht
Ich denke, das Winfried8 genügend Hinweise bekommen hat, um erste Versuche zu starten und sich dann für seinen Weg zu entscheiden.
Das denke ich auch. Deswegen müssen wir das auch nicht weiter vertiefen.
Gruß, mawe2
möchte ich einen Reiseführer von 1892 digitalisieren
Ist das Fraktur? Dann wird's mit OCR ziemlich schwierig. Wenn du das wirklich willst, solltest du erst das hier lesen:
http://www.finanzer.org/blog/2009/02/09/fraktur-ocr-mit-finereader/
http://www.finanzer.org/blog/2011/06/12/fraktur-ocr-mit-tessaract/
Im übrigen kannst du OCR-Versuche auch als zweiten Schritt mit deinem fertigen PDF-Reiseführer machen. Zumindest FineReader liest auch .pdf-Dateien ein.
Gruß
Peter
Du hast doch bestimmt Software für Deinen Scanner.
Ich scanne eine Seite ein und dann gehe ich auf "DRUCKEN".
Dann wähle ich aber nicht den Standarddrucker aus, sondern TinyPDF.
Dann wird das als PDF-Datei abgespeichert.