Hallo zusammen.
In meinem Büro steht ein Fujitsu ScanSnap ix1500 Dokumentscanner, den ich zum Scannen von Dokumentation verwende. Natürlich entsprechend auch oft für Retro-Sachen. Er kann nur A4. Das alleine ist oft schon eine große Einschränkung. Aber davon abgesehen bin ich super zufrieden damit. Das "Rohmaterial" (also die Scans) passen und es gibt ausreichend Einstellungsmöglichkeiten.
Weil wir viel Scannen, haben wir uns schon vor einigen Jahren ABBYY FineReader (Mac) gekauft und nutzen das in aktueller Version. (Beim ScanSnap ist ABBYY dabei, aber nur in einer abgespeckten OEM-Version.)
Bei ABBYY gibt es Licht und Schatten. Einerseits produziert es sehr gute OCR-Ergebnisse und arbeitet einigermaßen flott. Allerdings kämpfe ich immer wieder mit der schlechten bzw. unflexiblen Konfigurierbarkeit bei Bildbearbeitung und Export. Und es macht einfach keinen Spaß, hunderte von Seiten manuell nachzupfriemeln. Deshalb wollte ich hier mal fragen, wie Ihr das Thema "Dokumentenscan mit OCR" so handhabt. Was sind Eure Werkzeuge bzw. was ist der Ablauf?
Um mal mein Hauptproblem zu nennen: Die von ABBYY exportierten PDFs gefallen mir oft überhaupt nicht. Es gibt da eine Reihe von Problemen:
- Die PDFs sind oft größer als bei der Konkurrenz trotz gleicher oder schlechterer Qualität. Eine "Konkurrenz" ist z.B. Archive.org, das ja automatisch OCR-Versionen erzeugt. Die sind kompakter und sehen trotzdem besser aus, als meine Ergebnisse. Das will ich jetzt aber nicht unbedingt zu meinem Cloudbasierten Standard-Workflow machen...

- ABBYY hat irgendwie ein Problem mit der Seitengröße. Verzichtet man auf das Geraderichten der Seiten, dann sind die Exporte meistens einheitlich. Weil eben alle Seiten dasselbe Format haben. Tut man das nicht (was meistens bessere Erkennung möglich macht und natürlich - naja - die Seiten geraderichtet
) dann kommen oft kunterbunte Seitenformate innerhalb ein und desselben Dokuments dabei heraus. - ABBYY scheint nicht wirklich sparsam zu exportieren. Beispielsweise scanne ich manchmal explizit im Schwarzweiß-Modus (0/1). ABBYY scheint in den PDFs immer JPEGs abzulegen.
- Aktiviert man die Seitenoptimierung, dann werden Seiten mit Bildern manchmal grotesk verdreht. Das erfordert dann viel Handarbeit bzw. manuelles Ersetzen der Seiten. Zumal man den Importmodus nur zentral in den Einstellungen festlegen kann.
Kurz: So richtig zufrieden bin ich damit einfach nicht. Ich suche nach einer möglichst intelligenten Software, mit der man wenig Ärger hat und die sinnvolle Entscheidungen bei OCR und Export trifft. Gibt es sowas?
Danke und Gruß
Jens