Office - Word, Excel und Co. 9.753 Themen, 41.598 Beiträge

Gescanntes Dokument mit OCR bearbeiten

Proldi / 17 Antworten / Baumansicht Nickles

Hallo Leute,

ich habe mehrere Schriftstücke mit Word 2007 gescannt, soweit alles gut.

Gibt es eine Möglichkeit, diese Dateien erfolgversprechend per OCR in bearbeitbare Word-Dateien umzuwandeln?

Hintergrund ist hier, das ich so besser in der Lage bin, ein ärztliches Gutachten zu kommentieren.

Laut Google gibt es wohl einiges, aber ich möchte natürlich und hoffentlich verständlich, mich nicht durch alle Programme kämpfen und mir den ganzen Schrott installieren.

Ich denke mir aber, dass sicher irgendjemand von Euch da schon Erfahrungen hat und mir vielleicht einen Tipp geben kann.

Ich würde mich freuen.

-------------- Gruß Proldi
bei Antwort benachrichtigen
gelöscht_84526 Proldi „Gescanntes Dokument mit OCR bearbeiten“
Optionen

Ich würde das/die Dokument(e) als PDF einscannen und dann mit dem PDF-Xchange-Viewer bearbeiten bzw. damit Kommentare einfügen. Das klappt vorzüglich.

OCR war schon immer, ist immer noch und bleibt auch in Zukunft eine Krücke - zumindest für mich!

bei Antwort benachrichtigen
Proldi gelöscht_84526 „Ich würde das/die Dokument e als PDF einscannen und dann mit dem PDF-Xchange-Viewer bearbeiten bzw. damit Kommentare ...“
Optionen

Den PDF-Xchange-Viewer hatte ich vergessen, habe ihn doch sogar als portable vorliegen. Aber so ganz ist es nicht das gesuchte, es sei denn ich übersehe etwas. Das werde ich aber dann wohl hoffentlich von Dir zu lesen bekommen..

Ich hatte mir vorgestellt, im Formular wie bei z.B. Word den Abstand zwischen den Texten zu vergrößern und dort dann den ggf. auch mehrere Zeilen umfassenden Text (Kommentar) einzugeben.

Aber das scheint wohl so nicht zu funktionieren. Wie würdest Du vorgehen?

-------------- Gruß Proldi
bei Antwort benachrichtigen
gelöscht_84526 Proldi „Den PDF-Xchange-Viewer hatte ich vergessen, habe ihn doch sogar als portable vorliegen. Aber so ganz ist es nicht das ...“
Optionen

Hi, kurze Texte als Kommentar einfügen klappt wohl. Den Abstand zwischen den Texten vergrößern kann man allerdings wohl nicht, das habe ich allerdings auch noch nicht ausprobiert, möglicherweise geht es ja doch. Dazu müsste ich auch erst das Handbuch zu Rate ziehen....

Schau mal hier, da gibt es mittlerweile einen "Nachfolger" des Programms, vielleicht klappt es ja damit:
http://www.pdf-xchange.de/pdf-xchange-viewer/pdf-xchange-editor-funktionen.htm

bei Antwort benachrichtigen
Proldi gelöscht_84526 „Hi, kurze Texte als Kommentar einfügen klappt wohl. Den Abstand zwischen den Texten vergrößern kann man allerdings wohl ...“
Optionen
Dazu müsste ich auch erst das Handbuch zu Rate ziehen....

Das habe ich getan, konnte aber nichts entsprechendes entdecken.

Schau mal hier, da gibt es mittlerweile einen "Nachfolger" des Programms, vielleicht klappt es ja damit: http://www.pdf-xchange.de/pdf-xchange-viewer/pdf-xchange-editor-funktionen.htm

Die Version werde ich mir am Wochenende genauer ansehen, vielleicht hilft es ja.

-------------- Gruß Proldi
bei Antwort benachrichtigen
Wäbbel Proldi „Gescanntes Dokument mit OCR bearbeiten“
Optionen

Guten Morgen Proldi,

empfehlen kann ich dafür klar Adobe Acrobat (mindestens die Standard Version) - damit mach ich das seit Jahren.

Für eine einmalige Aktion könntest du eventuell eine Testversion benutzen.

Schriftstücke mit Word 2007 gescannt,

Das verstehe ich irgendwie nicht.

HTH

Wäbbel

bei Antwort benachrichtigen
Proldi Wäbbel „Guten Morgen Proldi, empfehlen kann ich dafür klar Adobe Acrobat mindestens die Standard Version - damit mach ich das seit ...“
Optionen
Für eine einmalige Aktion könntest du eventuell eine Testversion benutzen.

Und genau das wollte ich möglichst vermeiden, aber trotzdem Danke.

-------------- Gruß Proldi
bei Antwort benachrichtigen
mawe2 Proldi „Gescanntes Dokument mit OCR bearbeiten“
Optionen

MS Office 2007 enthält bereits ein passendes Tool für diese Aufgabe:

Microsoft Office Document Imaging

(Dieses Tool gibt es auch im Office 2003; es kann auch bei Microsoft separat heruntergeladen und mit anderen 32-Bit-Office-Versionen verwendet werden.)

http://de.wikihow.com/Einen-Scan-in-ein-Word-Dokument-umwandeln

Wenn die Druckvorlage sowie der Scan qualitativ hinreichend sind, funktioniert die Texterkennung damit problemlos.

Gruß, mawe2

bei Antwort benachrichtigen
Proldi mawe2 „MS Office 2007 enthält bereits ein passendes Tool für diese Aufgabe: Microsoft Office Document Imaging Dieses Tool gibt ...“
Optionen
MS Office 2007 enthält bereits ein passendes Tool für diese Aufgabe: Microsoft Office Document Imaging

Das Tool setzt aber voraus, das die Datei als TIFF vorliegt. Die Dateien sind aber alle als doc bzw. docx gespeichert.

-------------- Gruß Proldi
bei Antwort benachrichtigen
mawe2 Proldi „Das Tool setzt aber voraus, das die Datei als TIFF vorliegt. Die Dateien sind aber alle als doc bzw. docx gespeichert.“
Optionen
Die Dateien sind aber alle als doc bzw. docx gespeichert.

Scans sind ja eigentlich Bilder...

Liegen die Bilder in der doc/docx-Datei in hinreichend guter Qualität vor, könntest Du sie auch als TIFF-Dateien speichern, um dann eine Texterkennung durchführen zu können.

Es ist aber eher unwahrscheinlich, dass eingebettete Bilder in doc/docx-Dateien eine hinreichende Qualität für OCR haben.

Was hindert Dich daran, die Vorlagen nochmal neu einzuscannen?

Gruß, mawe2

bei Antwort benachrichtigen
Proldi mawe2 „Scans sind ja eigentlich Bilder... Liegen die Bilder in der doc/docx-Datei in hinreichend guter Qualität vor, könntest ...“
Optionen
Liegen die Bilder in der doc/docx-Datei in hinreichend guter Qualität vor, könntest Du sie auch als TIFF-Dateien speichern, um dann eine Texterkennung durchführen zu können.

Wie soll das gehen?

-------------- Gruß Proldi
bei Antwort benachrichtigen
mawe2 Proldi „Wie soll das gehen?“
Optionen
Wie soll das gehen?

Bei docx-Dateien ist das relativ einfach:

  • Datei in ZIP-Datei umbenennen
  • diese ZIP-Datei im Explorer öffnen
  • im Ordner \word\media liegen die ins Dokument eingebetteten Bild-Dateien

Hast Du TIFF-Dateien im Word-Dokument, kannst Du sie also direkt aus der ZIP-Datei extrahieren und dann mit OCR umwandeln.

Liegen die Scans in einem anderen Grafikformat vor, musst Du sie ggf. noch in TIFF umwandeln.

Bei doc-Dateien funktioniert dieser Vorgang so nicht, da diese keine XML-Struktur aufweisen. Hier müsste man das betreffende Bild (in Word) kopieren, in eine Bildbearbeitung einfügen und dort als TIFF-Datei speichern.

In jedem Falle ist es fraglich, ob die Bilddateien, die beim Scanvorgang (unnötigerweise) gleich in ein Word-Dokument eingebettet wurden, überhaupt genügend Qualität für eine Texterkennung aufweisen. Standardmäßig komprimiert Word eingebettete Bilder, so dass die Qualität automatisch schlechter wird.

Gruß, mawe2

bei Antwort benachrichtigen
Proldi mawe2 „Bei docx-Dateien ist das relativ einfach: Datei in ZIP-Datei umbenennen diese ZIP-Datei im Explorer öffnen im Ordner word ...“
Optionen

Okay, so funktioniert es generell schon, aber .............

Die Formatierung des Textes wird komplett entfernt, der gesamte Text wird linksbündig abgelegt. Das bringt mich auch nicht weiter.

-------------- Gruß Proldi
bei Antwort benachrichtigen
mawe2 Proldi „Okay, so funktioniert es generell schon, aber ............. Die Formatierung des Textes wird komplett entfernt, der gesamte ...“
Optionen
Die Formatierung des Textes wird komplett entfernt, der gesamte Text wird linksbündig abgelegt. Das bringt mich auch nicht weiter.

Du hast Dir aber auch wirklich ein sehr spezielles Problem ausgesucht!

Und das willst Du auch noch ohne Anschaffung und Installation speziell geeigneter Software erledigen???

Die Beibehaltung der Formatierung ist bei OCR ein besonderes Problem. Sie scheitert meist schon daran, dass es auf dem Zielrechner nicht unbedingt dieselben Schriftarten gibt, wie sie im gescannten Dokument verwendet werden.

Ich lege bei OCR Wert darauf, dass die Inhalte (möglichst fehlerfrei !) übernommen werden. Formatierungen erzeuge ich dann hinterher in Word selber.

Wenn Du den Text "zerlegen" willst, um Kommentare einzufügen, zerstörst Du die ursprüngliche Formatierung doch sowieso. Wieso legst Du dann so großen Wert drauf, die Formatierung beim OCR-Vorgang zu erhalten?

Um wieviel Text (wie viele A4-Seiten) handelt es sich denn überhaupt?

Gruß, mawe2

PS: Könntest Du den Ersteller des Dokuments nicht bitten, Dir den Inhalt gleich als Word-Datei oder als PDF zuzusenden?

bei Antwort benachrichtigen
gelöscht_84526 mawe2 „Du hast Dir aber auch wirklich ein sehr spezielles Problem ausgesucht! Und das willst Du auch noch ohne Anschaffung und ...“
Optionen
Du hast Dir aber auch wirklich ein sehr spezielles Problem ausgesucht!

Das denke ich auch die ganze Zeit.

Mein Vorschlag an den TE: Wie wäre es, wenn du deine Kommentare zu dem Schriftstück einfach als "Anhang" auf einem gesonderten Blatt zu diesem verfasst? Also ein ganz normales Worddokument, in welchem du auf die einzelnen Punkte des Originaldokumentes eingehst, also in der Form:

Zu Punkt 1. (oder: Zu a)

Zu Punkt 2. (oder: Zu b)

Zu Punkt 3. (oder: Zu c)

...und diesen "Anhang" einfach dem Originalformular beifügst?

Das sollte doch eigentlich genügen. Man muss ja nicht unbedingt das Originaldokument so verändern, dass man große Texteinträge einfügt. Randnotizen wären ja noch OK, aber ganze Zeilen verschieben, um da noch Text einzufügen, halte ich für übertrieben und überzogen.

Allerdings muss der TE ja selber wissen, was er macht..... :-))

bei Antwort benachrichtigen
Proldi gelöscht_84526 „Das denke ich auch die ganze Zeit. Mein Vorschlag an den TE: Wie wäre es, wenn du deine Kommentare zu dem Schriftstück ...“
Optionen
Du hast Dir aber auch wirklich ein sehr spezielles Problem ausgesucht!

....so isses wohl ....... und zu einfach vorgestellt!

Danke Euch beiden, denn beide Vorschläge sind wohl eher sinnvoll.

PS: Einen Versuch war es Wert, man kann nur lernen!

-------------- Gruß Proldi
bei Antwort benachrichtigen
Borlander mawe2 „Du hast Dir aber auch wirklich ein sehr spezielles Problem ausgesucht! Und das willst Du auch noch ohne Anschaffung und ...“
Optionen
Die Beibehaltung der Formatierung ist bei OCR ein besonderes Problem. Sie scheitert meist schon daran, dass es auf dem Zielrechner nicht unbedingt dieselben Schriftarten gibt, wie sie im gescannten Dokument verwendet werden.

Ich habe den Eindruck, dass es Proldi stärker um das Layout des Textes geht. Also Absätze und deren Anordnung. Schriftart dürfte da ziemlich egal sein, zudem ich auch noch von keiner OCR-Software gehört habe die die exakte Schriftart mit erkennt.

bei Antwort benachrichtigen
mawe2 Borlander „Ich habe den Eindruck, dass es Proldi stärker um das Layout des Textes geht. Also Absätze und deren Anordnung. ...“
Optionen
Ich habe den Eindruck, dass es Proldi stärker um das Layout des Textes geht. Also Absätze und deren Anordnung. Schriftart dürfte da ziemlich egal sein

Das Layout hängt natürlich auch explizit von der Schriftart ab. Insofern ist sie nicht egal. (Eine Schriftart, die doppelt so breite Zeichen hat wie eine andere Schriftart, wird auch in etwa doppelt so viel Platz für die Darstellung des gesamten Dokuments benötigen.)

Man wird mit entsprechenden Ersatzschriftarten meist eine befriedigende Darstellung hinbekommen. Eine 100%ige Übereinstimmung zwischen dem Original und dem mittels OCR erzeugten editierbaren Text wird aber kaum zu erzielen sein.

bei Antwort benachrichtigen