Suche nach Tipps zum Thema Scannen von Dokumentation

  • Hallo zusammen.


    In meinem Büro steht ein Fujitsu ScanSnap ix1500 Dokumentscanner, den ich zum Scannen von Dokumentation verwende. Natürlich entsprechend auch oft für Retro-Sachen. Er kann nur A4. Das alleine ist oft schon eine große Einschränkung. Aber davon abgesehen bin ich super zufrieden damit. Das "Rohmaterial" (also die Scans) passen und es gibt ausreichend Einstellungsmöglichkeiten.


    Weil wir viel Scannen, haben wir uns schon vor einigen Jahren ABBYY FineReader (Mac) gekauft und nutzen das in aktueller Version. (Beim ScanSnap ist ABBYY dabei, aber nur in einer abgespeckten OEM-Version.)


    Bei ABBYY gibt es Licht und Schatten. Einerseits produziert es sehr gute OCR-Ergebnisse und arbeitet einigermaßen flott. Allerdings kämpfe ich immer wieder mit der schlechten bzw. unflexiblen Konfigurierbarkeit bei Bildbearbeitung und Export. Und es macht einfach keinen Spaß, hunderte von Seiten manuell nachzupfriemeln. Deshalb wollte ich hier mal fragen, wie Ihr das Thema "Dokumentenscan mit OCR" so handhabt. Was sind Eure Werkzeuge bzw. was ist der Ablauf?


    Um mal mein Hauptproblem zu nennen: Die von ABBYY exportierten PDFs gefallen mir oft überhaupt nicht. Es gibt da eine Reihe von Problemen:

    • Die PDFs sind oft größer als bei der Konkurrenz trotz gleicher oder schlechterer Qualität. Eine "Konkurrenz" ist z.B. Archive.org, das ja automatisch OCR-Versionen erzeugt. Die sind kompakter und sehen trotzdem besser aus, als meine Ergebnisse. Das will ich jetzt aber nicht unbedingt zu meinem Cloudbasierten Standard-Workflow machen... ;)
    • ABBYY hat irgendwie ein Problem mit der Seitengröße. Verzichtet man auf das Geraderichten der Seiten, dann sind die Exporte meistens einheitlich. Weil eben alle Seiten dasselbe Format haben. Tut man das nicht (was meistens bessere Erkennung möglich macht und natürlich - naja - die Seiten geraderichtet ;)) dann kommen oft kunterbunte Seitenformate innerhalb ein und desselben Dokuments dabei heraus.
    • ABBYY scheint nicht wirklich sparsam zu exportieren. Beispielsweise scanne ich manchmal explizit im Schwarzweiß-Modus (0/1). ABBYY scheint in den PDFs immer JPEGs abzulegen.
    • Aktiviert man die Seitenoptimierung, dann werden Seiten mit Bildern manchmal grotesk verdreht. Das erfordert dann viel Handarbeit bzw. manuelles Ersetzen der Seiten. Zumal man den Importmodus nur zentral in den Einstellungen festlegen kann.

    Kurz: So richtig zufrieden bin ich damit einfach nicht. Ich suche nach einer möglichst intelligenten Software, mit der man wenig Ärger hat und die sinnvolle Entscheidungen bei OCR und Export trifft. Gibt es sowas?


    Danke und Gruß


    Jens

  • Hast du mal versucht, die erzeugten PDFs nochmal in PDF zu "drucken", z.B. aus dem PDF-Reader/Foxit/Sumatra-PDF z.B. mit dem PDF-Druckertreiver von Windows? (Alternativ mit den Druckertreibern von FreePDF, PDF24, ...)

    1ST1

  • Hast du mal versucht, die erzeugten PDFs nochmal in PDF zu "drucken", z.B. aus dem PDF-Reader/Foxit/Sumatra-PDF z.B. mit dem PDF-Druckertreiver von Windows? (Alternativ mit den Druckertreibern von FreePDF, PDF24, ...)

    Keine so schlechte Idee! Ist allerdings ein zusätzlicher Arbeitsschritt und sie werden dann nochmal digital durch die Mühle gedreht. "Garbage in, Garbage out"-Prinzip.


    Trotzdem habe ich es eben mal an einem Problemfall mit zerwürfelten Seitengrößen getestet. Das funktioniert und ist für den Notfall evtl. mal eine Option. :thumbup:Gibt aber Nachteile: Noch ein Rahmen mehr um die Seiten und die Größe nimmt um ca. 30-40% zu. Besser wäre es, sie Software wäre direkt beim Export intelligenter.

  • Ein Problem sind z.B. auch gelbstichige Seiten in Dokumenten mit gemischtem (Text- / Grafiken) Inhalt. Scannt man das gesamte Dokument in Farbe, dann sind natürlich auch die "Schwarzweiß-Seiten" gelbstichig. Scanne ich alles in S/W, dann sehen die "Schwarzweiß-Seiten" meistens (fast) perfekt aus, aber die Farbseiten natürlich eher weniger. ;)

    Der Fujitsu hat eine recht gut funktionierende Automatik für den Mischbetrieb. Aber die funktioniert auch nicht 100%ig. Eben hatte ich einen Satz von sechs alten Büchern einer Serie. Alle waren leicht gelbstichig. Aber zwei davon waren stärker ausgeblichen, vier weniger stark. Bei den Vieren war das Scan-Ergebnis super, bei den zwei Ausgeblicheneren war wohl gerade die Schwelle überschritten und die Seiten wurden dann doch als Farb- statt S/W-Seiten gescannt.


    Da würde ich mir wünschen, dass die OCR-Software das erkennen kann.

  • Automatiken bekommen das nie sauber hin. Hast du mal versucht, die Seiten erstmal in Bilddateien in Farbe zu scannen und dann die schwarzweißen Seiten erstmal nach schwarzweiß zu konvertieren/überschreiben, und damit dann die OCR-Software zu füttern? Och weiß, ein weiterer Zwischenschritt...

  • Automatiken bekommen das nie sauber hin. Hast du mal versucht, die Seiten erstmal in Bilddateien in Farbe zu scannen und dann die schwarzweißen Seiten erstmal nach schwarzweiß zu konvertieren/überschreiben, und damit dann die OCR-Software zu füttern? Och weiß, ein weiterer Zwischenschritt..

    Automatiken bekommen das hin, wenn sie sich vernünftig konfigurieren lassen. Genau das war ja meine ursprüngliche Frage. Sonst würde ja auch Dein Vorschlag nicht funktionieren. Abgesehen von Individualbehandlung jeder einzelnen Seite in Bezug auf Kontrast etc. -- aber das können wir hoffentlich als unpraktikabel abhaken.


    Allerdings ist der Ansatz, nicht mit einem PDF als Ausgangsmaterial, sondern mit den gescannten Einzelseiten zu arbeiten, evtl. eine gute Idee. Für den Import durch ABBYY wäre es (fast) egal. Vielleicht ließen sich Automator-Workflows für die verschiedenen Seitentypen erstellen mit manueller Sortierung als "Vorstufe".


    Bleibt trotzdem noch das Problem mit dem zickigen ABBYY-Export.

  • Vielleicht kann Abbyy auch in ein anderes Format exportieren, *.doc(x) und dann mal MS-Word oder den Libre-Writer machen lassen?


    Fürs Konvertieren der Bilddateien eignet sich übrigens die Batchkonvertierungsfunktion von Irfanview ziemlich gut.

    1ST1