Office - Word, Excel und Co. 9.746 Themen, 41.427 Beiträge

Gescanntes Dokument mit OCR bearbeiten

Proldi / 17 Antworten / Flachansicht Nickles

Hallo Leute,

ich habe mehrere Schriftstücke mit Word 2007 gescannt, soweit alles gut.

Gibt es eine Möglichkeit, diese Dateien erfolgversprechend per OCR in bearbeitbare Word-Dateien umzuwandeln?

Hintergrund ist hier, das ich so besser in der Lage bin, ein ärztliches Gutachten zu kommentieren.

Laut Google gibt es wohl einiges, aber ich möchte natürlich und hoffentlich verständlich, mich nicht durch alle Programme kämpfen und mir den ganzen Schrott installieren.

Ich denke mir aber, dass sicher irgendjemand von Euch da schon Erfahrungen hat und mir vielleicht einen Tipp geben kann.

Ich würde mich freuen.

-------------- Gruß Proldi
bei Antwort benachrichtigen
Wie soll das gehen? Proldi
mawe2 Proldi „Wie soll das gehen?“
Optionen
Wie soll das gehen?

Bei docx-Dateien ist das relativ einfach:

  • Datei in ZIP-Datei umbenennen
  • diese ZIP-Datei im Explorer öffnen
  • im Ordner \word\media liegen die ins Dokument eingebetteten Bild-Dateien

Hast Du TIFF-Dateien im Word-Dokument, kannst Du sie also direkt aus der ZIP-Datei extrahieren und dann mit OCR umwandeln.

Liegen die Scans in einem anderen Grafikformat vor, musst Du sie ggf. noch in TIFF umwandeln.

Bei doc-Dateien funktioniert dieser Vorgang so nicht, da diese keine XML-Struktur aufweisen. Hier müsste man das betreffende Bild (in Word) kopieren, in eine Bildbearbeitung einfügen und dort als TIFF-Datei speichern.

In jedem Falle ist es fraglich, ob die Bilddateien, die beim Scanvorgang (unnötigerweise) gleich in ein Word-Dokument eingebettet wurden, überhaupt genügend Qualität für eine Texterkennung aufweisen. Standardmäßig komprimiert Word eingebettete Bilder, so dass die Qualität automatisch schlechter wird.

Gruß, mawe2

bei Antwort benachrichtigen