Gescanntes Dokument mit OCR bearbeiten

Proldi „Gescanntes Dokument mit OCR bearbeiten“

03.08.2017, 06:39 Optionen

Ich würde das/die Dokument(e) als PDF einscannen und dann mit dem PDF-Xchange-Viewer bearbeiten bzw. damit Kommentare einfügen. Das klappt vorzüglich.

OCR war schon immer, ist immer noch und bleibt auch in Zukunft eine Krücke - zumindest für mich!

Proldi

gelöscht_84526 „Ich würde das/die Dokument e als PDF einscannen und dann mit dem PDF-Xchange-Viewer bearbeiten bzw. damit Kommentare ...“

03.08.2017, 22:36 Optionen

Den PDF-Xchange-Viewer hatte ich vergessen, habe ihn doch sogar als portable vorliegen. Aber so ganz ist es nicht das gesuchte, es sei denn ich übersehe etwas. Das werde ich aber dann wohl hoffentlich von Dir zu lesen bekommen..

Ich hatte mir vorgestellt, im Formular wie bei z.B. Word den Abstand zwischen den Texten zu vergrößern und dort dann den ggf. auch mehrere Zeilen umfassenden Text (Kommentar) einzugeben.

Aber das scheint wohl so nicht zu funktionieren. Wie würdest Du vorgehen?

gelöscht_84526

Proldi „Den PDF-Xchange-Viewer hatte ich vergessen, habe ihn doch sogar als portable vorliegen. Aber so ganz ist es nicht das ...“

04.08.2017, 10:28 Optionen

Hi, kurze Texte als Kommentar einfügen klappt wohl. Den Abstand zwischen den Texten vergrößern kann man allerdings wohl nicht, das habe ich allerdings auch noch nicht ausprobiert, möglicherweise geht es ja doch. Dazu müsste ich auch erst das Handbuch zu Rate ziehen....

Schau mal hier, da gibt es mittlerweile einen "Nachfolger" des Programms, vielleicht klappt es ja damit:
http://www.pdf-xchange.de/pdf-xchange-viewer/pdf-xchange-editor-funktionen.htm

Proldi

gelöscht_84526 „Hi, kurze Texte als Kommentar einfügen klappt wohl. Den Abstand zwischen den Texten vergrößern kann man allerdings wohl ...“

04.08.2017, 16:57 Optionen

Dazu müsste ich auch erst das Handbuch zu Rate ziehen....

Das habe ich getan, konnte aber nichts entsprechendes entdecken.

Schau mal hier, da gibt es mittlerweile einen "Nachfolger" des Programms, vielleicht klappt es ja damit: http://www.pdf-xchange.de/pdf-xchange-viewer/pdf-xchange-editor-funktionen.htm

Die Version werde ich mir am Wochenende genauer ansehen, vielleicht hilft es ja.

Wäbbel

Proldi „Gescanntes Dokument mit OCR bearbeiten“

03.08.2017, 09:33 Optionen

Guten Morgen Proldi,

empfehlen kann ich dafür klar Adobe Acrobat (mindestens die Standard Version) - damit mach ich das seit Jahren.

Für eine einmalige Aktion könntest du eventuell eine Testversion benutzen.

Schriftstücke mit Word 2007 gescannt,

Das verstehe ich irgendwie nicht.

HTH

Wäbbel

Proldi

Wäbbel „Guten Morgen Proldi, empfehlen kann ich dafür klar Adobe Acrobat mindestens die Standard Version - damit mach ich das seit ...“

03.08.2017, 22:36 Optionen

Für eine einmalige Aktion könntest du eventuell eine Testversion benutzen.

Und genau das wollte ich möglichst vermeiden, aber trotzdem Danke.

mawe2

Proldi „Gescanntes Dokument mit OCR bearbeiten“

03.08.2017, 12:28 Optionen

MS Office 2007 enthält bereits ein passendes Tool für diese Aufgabe:

Microsoft Office Document Imaging

(Dieses Tool gibt es auch im Office 2003; es kann auch bei Microsoft separat heruntergeladen und mit anderen 32-Bit-Office-Versionen verwendet werden.)

http://de.wikihow.com/Einen-Scan-in-ein-Word-Dokument-umwandeln

Wenn die Druckvorlage sowie der Scan qualitativ hinreichend sind, funktioniert die Texterkennung damit problemlos.

Gruß, mawe2

Proldi

mawe2 „MS Office 2007 enthält bereits ein passendes Tool für diese Aufgabe: Microsoft Office Document Imaging Dieses Tool gibt ...“

03.08.2017, 22:38 Optionen

MS Office 2007 enthält bereits ein passendes Tool für diese Aufgabe: Microsoft Office Document Imaging

Das Tool setzt aber voraus, das die Datei als TIFF vorliegt. Die Dateien sind aber alle als doc bzw. docx gespeichert.

mawe2

Proldi „Das Tool setzt aber voraus, das die Datei als TIFF vorliegt. Die Dateien sind aber alle als doc bzw. docx gespeichert.“

03.08.2017, 23:44 Optionen

Die Dateien sind aber alle als doc bzw. docx gespeichert.

Scans sind ja eigentlich Bilder...

Liegen die Bilder in der doc/docx-Datei in hinreichend guter Qualität vor, könntest Du sie auch als TIFF-Dateien speichern, um dann eine Texterkennung durchführen zu können.

Es ist aber eher unwahrscheinlich, dass eingebettete Bilder in doc/docx-Dateien eine hinreichende Qualität für OCR haben.

Was hindert Dich daran, die Vorlagen nochmal neu einzuscannen?

Gruß, mawe2

Proldi

mawe2 „Scans sind ja eigentlich Bilder... Liegen die Bilder in der doc/docx-Datei in hinreichend guter Qualität vor, könntest ...“

04.08.2017, 00:21 Optionen

Liegen die Bilder in der doc/docx-Datei in hinreichend guter Qualität vor, könntest Du sie auch als TIFF-Dateien speichern, um dann eine Texterkennung durchführen zu können.

Wie soll das gehen?

mawe2

Proldi „Wie soll das gehen?“

04.08.2017, 10:53 Optionen

Wie soll das gehen?

Bei docx-Dateien ist das relativ einfach:

Datei in ZIP-Datei umbenennen
diese ZIP-Datei im Explorer öffnen
im Ordner \word\media liegen die ins Dokument eingebetteten Bild-Dateien

Hast Du TIFF-Dateien im Word-Dokument, kannst Du sie also direkt aus der ZIP-Datei extrahieren und dann mit OCR umwandeln.

Liegen die Scans in einem anderen Grafikformat vor, musst Du sie ggf. noch in TIFF umwandeln.

Bei doc-Dateien funktioniert dieser Vorgang so nicht, da diese keine XML-Struktur aufweisen. Hier müsste man das betreffende Bild (in Word) kopieren, in eine Bildbearbeitung einfügen und dort als TIFF-Datei speichern.

In jedem Falle ist es fraglich, ob die Bilddateien, die beim Scanvorgang (unnötigerweise) gleich in ein Word-Dokument eingebettet wurden, überhaupt genügend Qualität für eine Texterkennung aufweisen. Standardmäßig komprimiert Word eingebettete Bilder, so dass die Qualität automatisch schlechter wird.

Gruß, mawe2

Proldi

mawe2 „Bei docx-Dateien ist das relativ einfach: Datei in ZIP-Datei umbenennen diese ZIP-Datei im Explorer öffnen im Ordner word ...“

04.08.2017, 16:59 Optionen

Okay, so funktioniert es generell schon, aber .............

Die Formatierung des Textes wird komplett entfernt, der gesamte Text wird linksbündig abgelegt. Das bringt mich auch nicht weiter.

mawe2

Proldi „Okay, so funktioniert es generell schon, aber ............. Die Formatierung des Textes wird komplett entfernt, der gesamte ...“

04.08.2017, 17:19 Optionen

Die Formatierung des Textes wird komplett entfernt, der gesamte Text wird linksbündig abgelegt. Das bringt mich auch nicht weiter.

Du hast Dir aber auch wirklich ein sehr spezielles Problem ausgesucht!

Und das willst Du auch noch ohne Anschaffung und Installation speziell geeigneter Software erledigen???

Die Beibehaltung der Formatierung ist bei OCR ein besonderes Problem. Sie scheitert meist schon daran, dass es auf dem Zielrechner nicht unbedingt dieselben Schriftarten gibt, wie sie im gescannten Dokument verwendet werden.

Ich lege bei OCR Wert darauf, dass die Inhalte (möglichst fehlerfrei !) übernommen werden. Formatierungen erzeuge ich dann hinterher in Word selber.

Wenn Du den Text "zerlegen" willst, um Kommentare einzufügen, zerstörst Du die ursprüngliche Formatierung doch sowieso. Wieso legst Du dann so großen Wert drauf, die Formatierung beim OCR-Vorgang zu erhalten?

Um wieviel Text (wie viele A4-Seiten) handelt es sich denn überhaupt?

Gruß, mawe2

PS: Könntest Du den Ersteller des Dokuments nicht bitten, Dir den Inhalt gleich als Word-Datei oder als PDF zuzusenden?

gelöscht_84526

mawe2 „Du hast Dir aber auch wirklich ein sehr spezielles Problem ausgesucht! Und das willst Du auch noch ohne Anschaffung und ...“

04.08.2017, 17:58 Optionen

Du hast Dir aber auch wirklich ein sehr spezielles Problem ausgesucht!

Das denke ich auch die ganze Zeit.

Mein Vorschlag an den TE: Wie wäre es, wenn du deine Kommentare zu dem Schriftstück einfach als "Anhang" auf einem gesonderten Blatt zu diesem verfasst? Also ein ganz normales Worddokument, in welchem du auf die einzelnen Punkte des Originaldokumentes eingehst, also in der Form:

Zu Punkt 1. (oder: Zu a)

Zu Punkt 2. (oder: Zu b)

Zu Punkt 3. (oder: Zu c)

...und diesen "Anhang" einfach dem Originalformular beifügst?

Das sollte doch eigentlich genügen. Man muss ja nicht unbedingt das Originaldokument so verändern, dass man große Texteinträge einfügt. Randnotizen wären ja noch OK, aber ganze Zeilen verschieben, um da noch Text einzufügen, halte ich für übertrieben und überzogen.

Allerdings muss der TE ja selber wissen, was er macht..... :-))

Proldi

gelöscht_84526 „Das denke ich auch die ganze Zeit. Mein Vorschlag an den TE: Wie wäre es, wenn du deine Kommentare zu dem Schriftstück ...“

04.08.2017, 18:16 Optionen

Du hast Dir aber auch wirklich ein sehr spezielles Problem ausgesucht!

....so isses wohl ....... und zu einfach vorgestellt!

Danke Euch beiden, denn beide Vorschläge sind wohl eher sinnvoll.

PS: Einen Versuch war es Wert, man kann nur lernen!

Borlander

mawe2 „Du hast Dir aber auch wirklich ein sehr spezielles Problem ausgesucht! Und das willst Du auch noch ohne Anschaffung und ...“

05.08.2017, 13:50 Optionen

Die Beibehaltung der Formatierung ist bei OCR ein besonderes Problem. Sie scheitert meist schon daran, dass es auf dem Zielrechner nicht unbedingt dieselben Schriftarten gibt, wie sie im gescannten Dokument verwendet werden.

Ich habe den Eindruck, dass es Proldi stärker um das Layout des Textes geht. Also Absätze und deren Anordnung. Schriftart dürfte da ziemlich egal sein, zudem ich auch noch von keiner OCR-Software gehört habe die die exakte Schriftart mit erkennt.

mawe2

Borlander „Ich habe den Eindruck, dass es Proldi stärker um das Layout des Textes geht. Also Absätze und deren Anordnung. ...“

05.08.2017, 15:19 Optionen

Ich habe den Eindruck, dass es Proldi stärker um das Layout des Textes geht. Also Absätze und deren Anordnung. Schriftart dürfte da ziemlich egal sein

Das Layout hängt natürlich auch explizit von der Schriftart ab. Insofern ist sie nicht egal. (Eine Schriftart, die doppelt so breite Zeichen hat wie eine andere Schriftart, wird auch in etwa doppelt so viel Platz für die Darstellung des gesamten Dokuments benötigen.)

Man wird mit entsprechenden Ersatzschriftarten meist eine befriedigende Darstellung hinbekommen. Eine 100%ige Übereinstimmung zwischen dem Original und dem mittels OCR erzeugten editierbaren Text wird aber kaum zu erzielen sein.

Office - Word, Excel und Co. 9.761 Themen, 41.776 Beiträge