Hi!
Auch wenn ich mich jetzt in die Nesseln setze: ich bin der Meinung, das schon mein uralter Canon Lide20 Scanner mit der mitgelieferten Canon-Toolbox-Software unter XP durchsuchbare PDFs erzeugt hat. Dazu muss ja eine OCR-Funktion im Hintergrund mitlaufen und der Index/Text muss im PDF gespeichert sein.
Prüfen kann ich das leider erst am nächsten Wochenende, weil ich erst da wieder an meinen Scanner rankomme.
Mit Google hab ich allerdings einige Beschreibungen von Canongeräten aufgestöbert, die ebenfalls davon berichten:
http://www.canon.de/For_Home/Product_Finder/Scanners/Flatbed/canonscan_lide70/
(Unter "Scan-to-PDF" wird das erwähnt.)
http://www.druckermagazin.de/canon-news/canon-i-sensys-mf3010/
Eine News zu einem aktuellen Gerät. Dort wird das auch erwähnt. ("Durch die MF Toolbox können Daten schon als durchsuchbare PDF-Dateien (...) gescannt werden. "
Evtl. müsste man einfach mal prüfen, ob man nicht doch an den Text in den durch Scannen erzeugten PDFs herankommt.
IMHO sollte koerperkenner einfach mal prüfen, ob er mit OO oder einem anderen Tool, Text in einem gescannten PDF findet. Evtl. reicht für den ersten Versuch auch Notepad oder ein Editor wie WinVI.
Ansonsten wird die Canon Toolbox sicherlich auch einen direkten OCR-Lauf bieten, so dass man einfach nur neu scannen muss.
Bis dann
Andreas