Als jemand, der schon viele Regalmeter Akten und Bücher gescannt und OCRt hat, kann ich auch ein Bisschen etwas dazu sagen.
Wenn viele gebundene Sachen gescannt werden sollen, kann ich die Anschaffung eines Stapelschneiders empfehlen. Das hängt natürlich davon ab, ob das Material anschließend entsorgt werden kann bzw. ob wichtig ist, dass die Sachen im Originalzustand erhalten bleiben. Bei den vielen Schulbüchern meiner Frau war klar, dass sie anschließend entsorgt werden konnten. Bei Doku kommt es darauf an und wertvolle Bücher wird man sicher nicht zerschneiden wollen. Als Kompromiss gibt es Archivschrauben, mit denen man auch dicke und gelochte Bücher provisorisch „binden“ kann.
Zum Scannen kann ich nur wärmstens den Fujitsu ScanSnap ix1500 empfehlen. Und zwar unter macOS und Windows. Der bringt auch gleich ein ABBYY FineReader mit. Das ist im Funktionsumfang reduziert und an den ScanSnap gebunden. D.h. man kann damit nur PDF durch die Mühle drehen, die mit dem ScanSnap erstellt wurden und die Engine ist nicht die allerneueste. Aber es gibt einen unschlagbaren Vorteil für die 90% der Alltags-Scans: Ein Knopfdruck am Scanner und man hat kurz darauf ein PDF mit OCR. Der Rechner muss dabei immer laufen. Der Scanner ist zwar nicht ganz billig, aber im Vergleich zu industriellen Komplettlösungen, die auch gleich das OCR erledigen, sehr günstig.
Der Scanner scannt mit max. 600dpi und beide Seiten eines A4-Blatts auf einmal. Wobei ich 600dpi für den Alltag nicht empfehlen kann. Das nutze ich höchstens für Vorlagen, bei denen Bilder im Vordergrund stehen. Also z.B. Artbooks oder sehr hochwertige naturwissenschaftliche Bücher, etc. Für alles andere ist das Oberkill und der Standardmodus des Scanners sind (auch von der Geschwindigkeit her) 300dpi. Sehr angenehm ist der Auto-Modus bei der Farbe. Das ist nämlich das nächste Thema. Sehr viele technische Dokumente scanne ich mit 1Bit, also Schwarzweiß. Ansonsten muss man von Fall zu Fall entscheiden, ob Graustufen oder Farbe sinnvoller sind — oder eben Auto, was auch mal daneben greift. Fujitsu hat mit seinem ScanSnap aber wirklich ein geniales Gerät geschaffen, das im Alltag einfach sehr „rund“ ist und zuverlässig funktioniert.
Möchte man aus einem nativen(!) Word- oder LibreOffice-Dokument ein pdf machen, dann ist immer der direkte Export aus der Anwendung vorzuziehen. So bekommt man minimal große PDF und die jeweilige Anwendung weiß ganz genau, was sie exportiert und wie das am Effizientesten nach PDF umsetzbar ist. Achtung: Beim Export über den Drucken-Dialog ist nicht garantiert, dass das PDF anschließend auch sinnvoll durchsuchbares enthält. Ich habe es schon erlebt, dass dabei die Zeichen kaputt gegangen sind. Das PDF sah dann zwar 1:1 in Ordnung aus, der Text war kopierbar, aber dann in der Zwischenablage „kaputt“. D.h. die „visuelle“ Schicht war da, aber der Text im Hintergrund defekt.
Word & Co können natürlich (soweit mein Wissensstand) aus einem importierten Bild kein durchsuchbares PDF machen.
Bzgl. Der Bearbeitung von PDF haben Mac-Anwender einen großen Vorteil, denn der Mac macht schon mit Bordmitteln aus Bildern PDF und bietet mit der Vorschau ein in das OS integriertes, mächtiges Werkzeug zum Bearbeiten von PDF an. (Seiten einfügen, verschieben, löschen, drehen, etc.) Man kann hier auch ganz einfach zwei PDF kombinieren.
Für die Zukunft wird sich das Thema manuelles OCR irgendwann von selbst erledigen. Es ist jetzt schon so, dass iPhones und Macs Text in Fotos direkt erkennen. Man kann also Text direkt aus einem gerade geknipsten Foto herauskopieren. Auch mein NAS (QNAP) kann inzwischen Text auch in der Foto-Bibliothek erkennen. Das ist alles noch nicht ausgereift. Aber es zeigt, wo die Reise hin geht. Aus diesem Grund bewahre ich übrigens immer die gescannten Originale auf. Also die Versionen ohne OCR und somit ohne erneute Komprimierung, die leider oft Teil des dem Scannen nachgelageten OCR-Prozesses ist. Natürlich bewahre ich nicht von jeder Handwerkerrechnung beide Versionen auf.
LG
Jens