Scannen von Texten zu PDF - Handhabung und Software

fritzeflink · 8. März 2022

Nicht jeder hat die richtige Software oder Erfahrung damit, weshalb hier wohl ein Erfahrungsaustausch notwendig ist.

Beispiel wie es doch recht umständlich ist, vor allem wird die PDF zu groß.

Zitat

Ich scanne die Seiten einzeln mit 600 dpi, je nach Vorlage farbig, grau oder schwarz/weiß.
Dann füge ich alle Seiten in eine Word-Datei und exportiere die dann als PDF.
Ist natürlich etwas umständlich, aber so kann ich einzelne Seiten noch retuschieren, wenn das notwendig ist.
Gruß

Die Frage ist jetzt wie die PDF von Word aus erstellt werden kann.

Ich habe z.B. den PDF 24 Creator der kostenlos für Endanwender ist.

Beim Drucken nach PDF gibt es die Möglichkeit der Auswahl, in welcher Qualität die PDF erstellt werden soll.

Ähnliches sollte es auch bei anderen 'nach PDF Druckern geben.

fritzeflink · 8. März 2022

Die Datei wurde mit Abbyy Finereader eingelesen, ocrd und gespeichert.

Deck.- und Rückseite habe ich anschließend mit dem PDF Exchange Editor von der Farbpdf in die sw PDF eingefügt.

Beide Programme sind nicht kostenlos, wenn aber jemand viele PDFs bearbeitet sind sie ein gutes Werkzeug.

KONTRON_Mikrocomputer-Datenbuch _79-80_abbyy_sw.pdf

Martin Hepperle · 8. März 2022

Aktuelle Word Versionen können direkt PDF exportieren, ohne Zusatzsoftware.

Man hat dann zwar nicht viele Optionen (z.B. keine AUflösung spezifizieren), aber oft reicht es auch aus.

Beispielsweise in Word Office 2019:

Datei > Exportieren > PDF/XPS Dokument erstellen.

fritzeflink · 8. März 2022

Zitat von Martin Hepperle

direkt PDF exportieren, ohne Zusatzsoftware

Nun, bei einem Größenunterschied von Faktor 10 kleiner ist mir eine Zusatzsoftware doch sehr sympathisch.

Martin Hepperle · 8. März 2022

Ja, das ist natürlich schon ein Grund. Word ist da sicher nur eine Notlösung, sofern man nichts Besseres hat.

Mein normaler semi-professioneller Weg ist der, dass ich

- den schnellen Scanner im Büro nutze, z.B. in der Mittagspause,

- vom Scanner eine PDF Datei per E-Mail zugeschickt bekomme,

- diese mit Acrobat Professional OCR bearbeiten lasse,

- Bookmarks zur Navigation manuell zufüge, z.B. bei Buchkapiteln,

- das ganze dann möglichst ohne weitere Optimierung abspeichere, oder wenn "optimiert">, dann nur nach genauem Vergleich bzgl. Auflösung.

In Acrobat Professional habe ich mir z.B. Skripte (geht dort mit Javascript) geschrieben, die 2 oder vier Seitenscans aufteilen oder auch Seiten automatisch umsortieren. Auch rechts/link Bundstege kann man damit anpassen. Der normale Acrobat Reader kann das nicht.

Leider gibt es den Acrobat so nicht mehr als Standalone Programm und zweitens ist der recht teuer (vielleicht kann man den aber inzwischen auch mal in EBay finden, man sollte aber auf eine Registriernummer achten.)

Wenn der Acrobat dann mal auf Windows xy nicht mehr läuft, muss ich mich vermutlich mal nach Python Libraries umsehen, da sollte es doch inzwischen eigentlich auch Module zum Bearbeiten von PDFS geben. Von Hand 200+ Dateien zusammenzubasteln, zu sortieren, zu beschneiden etc. macht keinen Spaß. Vielleicht hat hier jemand Erfahrung mit solchen scriptbaren PDF-Programmen?

Ein weiteres nützliches Werkzeug ist auch Ghostscript, da gibt es einiges an Import- und Export Filtern und man kann damit auch geschützte PDF Dokumente umwandeln, damit man z.B. Seiten umsortieren kann.

[Was ich vermeide, ist unnötige Farb- oder Graustufenscans bei reinen schwarz-weiss Dokumenten. Da gehen zwar die Meinungen auseinander, aber die inzwischen oft zu findenden Graustuft-Scans oder Handy-Photos lassen sich nicht schön ausdrucken oder weiterverarbeiten. Es gibt ja praktisch keine Graustufendrucker und beim Rastern wird dann alles unscharf. Da scanne ich lieber mit 600 dpi oder mehr schwarz-weiß, sofern keine Photos im Spiel sind.

Ganz schlimm sind auch progressive Scans, wie man sie teilweise bei archive.org findet. Da wird das Bild komplette zerlegt und in Vektorgrafik ebenen-weise aufgebaut, wodurch vieles kaum lesbar wird.

Oder auch Scans bei denen durch OCR die Original-Bitmap ersetzt wird und nicht als unsichtbares Overlay abgespeichert wird. Da scheint es von Epson solche Scanner/Software zu geben - auf der Epson Web Seite sind fast alle Drucker-Manuals so behandelt und dann fehlen teilweise Zeichen (z.B. in Beispiel BASIC Listings) oder die Formatierung ist total "versaut". Zu viel gekünstelte Intelligenz.]

klaly · 8. März 2022

@fritzeflink,

gibt es zu "Abbyy Finereader" 134,90€ eine brauchbarew 0€ Alternative ?
Mein Geld ist mir leider zu wertvoll, um es für Software auszugeben.

mfG. Klaus Loy

jewesta · 8. März 2022

Als jemand, der schon viele Regalmeter Akten und Bücher gescannt und OCRt hat, kann ich auch ein Bisschen etwas dazu sagen.

Wenn viele gebundene Sachen gescannt werden sollen, kann ich die Anschaffung eines Stapelschneiders empfehlen. Das hängt natürlich davon ab, ob das Material anschließend entsorgt werden kann bzw. ob wichtig ist, dass die Sachen im Originalzustand erhalten bleiben. Bei den vielen Schulbüchern meiner Frau war klar, dass sie anschließend entsorgt werden konnten. Bei Doku kommt es darauf an und wertvolle Bücher wird man sicher nicht zerschneiden wollen. Als Kompromiss gibt es Archivschrauben, mit denen man auch dicke und gelochte Bücher provisorisch „binden“ kann.

Zum Scannen kann ich nur wärmstens den Fujitsu ScanSnap ix1500 empfehlen. Und zwar unter macOS und Windows. Der bringt auch gleich ein ABBYY FineReader mit. Das ist im Funktionsumfang reduziert und an den ScanSnap gebunden. D.h. man kann damit nur PDF durch die Mühle drehen, die mit dem ScanSnap erstellt wurden und die Engine ist nicht die allerneueste. Aber es gibt einen unschlagbaren Vorteil für die 90% der Alltags-Scans: Ein Knopfdruck am Scanner und man hat kurz darauf ein PDF mit OCR. Der Rechner muss dabei immer laufen. Der Scanner ist zwar nicht ganz billig, aber im Vergleich zu industriellen Komplettlösungen, die auch gleich das OCR erledigen, sehr günstig.

Der Scanner scannt mit max. 600dpi und beide Seiten eines A4-Blatts auf einmal. Wobei ich 600dpi für den Alltag nicht empfehlen kann. Das nutze ich höchstens für Vorlagen, bei denen Bilder im Vordergrund stehen. Also z.B. Artbooks oder sehr hochwertige naturwissenschaftliche Bücher, etc. Für alles andere ist das Oberkill und der Standardmodus des Scanners sind (auch von der Geschwindigkeit her) 300dpi. Sehr angenehm ist der Auto-Modus bei der Farbe. Das ist nämlich das nächste Thema. Sehr viele technische Dokumente scanne ich mit 1Bit, also Schwarzweiß. Ansonsten muss man von Fall zu Fall entscheiden, ob Graustufen oder Farbe sinnvoller sind — oder eben Auto, was auch mal daneben greift. Fujitsu hat mit seinem ScanSnap aber wirklich ein geniales Gerät geschaffen, das im Alltag einfach sehr „rund“ ist und zuverlässig funktioniert.

Möchte man aus einem nativen(!) Word- oder LibreOffice-Dokument ein pdf machen, dann ist immer der direkte Export aus der Anwendung vorzuziehen. So bekommt man minimal große PDF und die jeweilige Anwendung weiß ganz genau, was sie exportiert und wie das am Effizientesten nach PDF umsetzbar ist. Achtung: Beim Export über den Drucken-Dialog ist nicht garantiert, dass das PDF anschließend auch sinnvoll durchsuchbares enthält. Ich habe es schon erlebt, dass dabei die Zeichen kaputt gegangen sind. Das PDF sah dann zwar 1:1 in Ordnung aus, der Text war kopierbar, aber dann in der Zwischenablage „kaputt“. D.h. die „visuelle“ Schicht war da, aber der Text im Hintergrund defekt.

Word & Co können natürlich (soweit mein Wissensstand) aus einem importierten Bild kein durchsuchbares PDF machen.

Bzgl. Der Bearbeitung von PDF haben Mac-Anwender einen großen Vorteil, denn der Mac macht schon mit Bordmitteln aus Bildern PDF und bietet mit der Vorschau ein in das OS integriertes, mächtiges Werkzeug zum Bearbeiten von PDF an. (Seiten einfügen, verschieben, löschen, drehen, etc.) Man kann hier auch ganz einfach zwei PDF kombinieren.

Für die Zukunft wird sich das Thema manuelles OCR irgendwann von selbst erledigen. Es ist jetzt schon so, dass iPhones und Macs Text in Fotos direkt erkennen. Man kann also Text direkt aus einem gerade geknipsten Foto herauskopieren. Auch mein NAS (QNAP) kann inzwischen Text auch in der Foto-Bibliothek erkennen. Das ist alles noch nicht ausgereift. Aber es zeigt, wo die Reise hin geht. Aus diesem Grund bewahre ich übrigens immer die gescannten Originale auf. Also die Versionen ohne OCR und somit ohne erneute Komprimierung, die leider oft Teil des dem Scannen nachgelageten OCR-Prozesses ist. Natürlich bewahre ich nicht von jeder Handwerkerrechnung beide Versionen auf.

LG

Jens

fritzeflink · 8. März 2022

Zitat von klaly

gibt es zu "Abbyy Finereader" 134,90€ eine brauchbarew 0€ Alternative ?

da habe ich aktuell keine positive Antwort.

Abbyy nutze ich seit ca 2001 und bin bisher damit zufrieden.

fritzeflink · 8. März 2022

Zitat von jewesta

Aus diesem Grund bewahre ich übrigens immer die gescannten Originale auf. Also die Versionen ohne OCR und somit ohne erneute Komprimierung, die leider oft Teil des dem Scannen nachgelageten OCR-Prozesses ist

Nur für meine Archivierung:

Die Original scanne ich nach BMP - archiviert wird zum Vorgang alles mit RAR. BMP deshalb weil ich schon nach Jahren defekte PNGs und JPEGs hatte, da fehlte dann die Hälfte des Bildes. Bei der BMP ist ein Fehler nicht ganz so schlimm und der Platz auf meinen Datenträgern ist ausreichend.

Das bezieht sich allerdings auf Scans die ich zwecks Archivierung und Dokumentation mache. Mein Frau schiebt ihre Blätter kurz in den Scanner - drückt eine Taste - und hat die PDF in ausreichender Qualität auf ihrem Rechner.

fritzeflink · 8. März 2022

Normal zu dem "von WORD zum PDF" Problem.

Wie kann mit aktuellem Word(*) eine einigermaßen kleine aber gute PDF erstellt werden ?

*) Wordstar wollte ich gerade schreiben, ach war das schön.

flottmann1 · 8. März 2022

ich scanne zunächst als jpg mit 300dpi (Flachbettscanner), erstelle dann ein PDF und mache es mit PDF24 durchsuchbar

PDF Seiten zurecht drehen oder beschneiden nehme ich dann Nuance Power PDF

habe etliche CHIP Hefte gescannt, die haben auch schon eher Buch Grösse, da oft 300 Seiten und mehr, allerdings habe ich einen A3 Scanner

die Grösse beträgt ca. 150 - 230 MB je PDF

fritzeflink · 8. März 2022

Zitat von flottmann1

erstelle dann ein PDF

und wie ?

flottmann1 · 8. März 2022

indem ich alle jpg markiere und über rechte Maustaste auf Drucken gehe, da wähle ich ScanSoft PDF Create, A3, 300 x 300 aus

mein A3 Drucker/Scanner ich ein HP-7740

mit Nuance Power PDF kann man auch einzelne Seiten extrahieren, ersetzen, löschen, einfügen usw.

Bodhi1969 · 9. März 2022

Eine weitere Möglichkeit, problemlos aus Word-Dateien PDF´s zu erstellen bietet ja das kostenlose LibreOffice.

zitruskeks · 9. März 2022

Zitat von fritzeflink

Wie kann mit aktuellem Word(*) eine einigermaßen kleine aber gute PDF erstellt werden ?

Datei->Speichern unter->einen Pfad wählen, um den Standard-Win-Save-Dialog zu bekommen für die Optionen->statt "Word Dokument" PDF wählen.-> "Optimieren für" z.B. Minimale größe. Zusätzlich neben dem SPeichern-Dialog wie gewohnt bei Word das"tools"-Dropdown öffen, dort "Bild" komprimieren" wählen und eine der gewünschten Optionen aussuchen. Speichern.

Grade mal geschaut, 10MB Word Antragsformular auf 700kb.

tofro · 9. März 2022

Zitat von klaly

@fritzeflink,
gibt es zu "Abbyy Finereader" 134,90€ eine brauchbarew 0€ Alternative ?
Mein Geld ist mir leider zu wertvoll, um es für Software auszugeben.

mfG. Klaus Loy

Ich bin eigentlich mit dem freien tesseract ganz zufrieden - Fabriziert aus bitmap-scans searchable pdfs, kann viele, viele Sprachen, und bringt ordentliche Ergebnisse.

fritzeflink · 9. März 2022

Nett, werde ich mir unter Debian anschauen.

tokabln · 9. März 2022

Ich nutze immer noch FreePDF... ansonsten LibreOffice mit der PDF Funktion.

tofro · 9. März 2022

Zitat von fritzeflink

Nett, werde ich mir unter Debian anschauen.

Kommandozeile ist hier - finde ich - kein Nachteil, weil man sich seinen Workflow mithilfe eines einfachen Scripts so zurechtzimmern kann, wie man's braucht.

klaly · 9. März 2022

@tofro, ...
> Ich bin eigentlich mit dem freien tesseract ganz zufrieden - Fabriziert aus bitmap-scans searchable pdfs,
> kann viele, viele Sprachen, und bringt ordentliche Ergebnisse.

... jetzt bin ich halt leider so Windows Fan.
Funktioniert das tesseract auch unter Windows ?

mfG. Klaus Loy

tofro · 9. März 2022

Zitat von klaly

... jetzt bin ich halt leider so Windows Fan.

Selber schuld....

Zitat

Funktioniert das tesseract auch unter Windows ?

Ja, es gibt fertige Windows-binaries (wenn du ein bißchen suchst, findest du bestimt auch eine grafische Oberfläche), z.B. hier.

An derselben Stelle gibt es auch speziell fertig trainierte Dateien zum Lesen von Frakturschriften, mit denen sich OCR erfahrungsgemäß ein bißchen schwer tut.

jewesta · 9. März 2022

Zitat von fritzeflink

Die Original scanne ich nach BMP - archiviert wird zum Vorgang alles mit RAR. BMP deshalb weil ich schon nach Jahren defekte PNGs und JPEGs hatte, da fehlte dann die Hälfte des Bildes.

Es ist wirklich erstaunlich, dass extrem selten aber doch immer wieder mal ein JPEG oder PNG kaputt geht. Kürzlich hatte ich auch mal wieder eine defekte Datei auf dem NAS. In dem Fall war es ein ZIP. Da fragt man sich manchmal schon, wie sicher das ganze ist. Bei JPEG denke ich immer, dass das zukünftige Generationen bestimmt einmal verfluchen werden. Eigentlich ist das ja ein riesiger Mist, wenn man mal so mit Abstand darüber nachdenkt. Genau wie MP3. Ein Jammer, dass sich JPEG2000 nie durchgesetzt hat. Das hat ja einen verlustfreien Modus, der fast unschlagbare Kompression liefert. Eine zeitlang habe ich damit alles archiviert. Aber das war damals noch zu rechenaufwändig und wie gesagt ist es leider kaum bekannt. Irgendwie waren die damit zu früh dran und haben den Fehler gemacht es nicht frei zur Verfügung zu stellen.

Ansonsten finde ich: Manchmal ist es wichtiger, das System beizubehalten, das man sich selbst zurechtgelegt hat, als zu sehr auf Effizienz zu achten. Zumal Speicher immer billiger wird. Das ist wie bei der Programmierung: Standardisierung vor Optimierung. Ich würde z.B. RAR heute nicht mehr verwenden, weil es sich einfach zu einem exotischen Format entwickelt hat. Die wenigen Prozent Platzgewinn sind nicht mehr so ausschlaggebend wie sie es zu Modem-Zeiten einmal waren. Aber: Wenn man jetzt alles so gemacht hat -- klar, dann würde ich dabei bleiben.

jewesta · 9. März 2022

Zitat von klaly

... jetzt bin ich halt leider so Windows Fan.
Funktioniert das tesseract auch unter Windows ?

Nur so nebenbei: Ich verwende schon lange kein Windows mehr, aber mit Texterkennung sieht es auf dem Mac ganz fürchterlich dürftig aus. Da schiele ich sehr neidisch in Richtung Windows. Es gibt nämlich inzwischen am Mac nur noch ABBYY. Und die von ABBYY haben zu allem Überfluss auch noch den Fehler gemacht, zu lange mit der Umstellung auf macOS 11 (Big Sur) zu warten. Das ja jetzt auch schon wieder alt ist. Jetzt gibt es die absurde Situation, dass das alte ABBYY unter OS 11+ nicht mehr vernünftig läuft (wesentliche Teile sind schlicht kaputt) und das neue ABBYY diese Funktionen aber noch nicht hat. Zum Beispiel fehlt fast der komplette Seiten-Editor, sodass man noch nicht einmal Schmutz etc. aus einzelnen Seiten entfernen kann.

tofro · 9. März 2022

Zitat von jewesta

Zitat von klaly

... jetzt bin ich halt leider so Windows Fan.
Funktioniert das tesseract auch unter Windows ?

Nur so nebenbei: Ich verwende schon lange kein Windows mehr, aber mit Texterkennung sieht es auf dem Mac ganz fürchterlich dürftig aus.

Ich verwende das oben erwähnte Tesseract auf dem Mac

jewesta · 9. März 2022

Zitat von tofro

Zitat von jewesta

Nur so nebenbei: Ich verwende schon lange kein Windows mehr, aber mit Texterkennung sieht es auf dem Mac ganz fürchterlich dürftig aus.

Ich verwende das oben erwähnte Tesseract auf dem Mac

Dann muss ich mir das doch noch einmal anschauen! Verwendet das nicht auch archive.org?
Leider wird es dazu vermutlich keine GUI geben, nehme ich an? Ich muss gestehen, dass ich im Alltag dann doch eher der Mausschubser bin...

RoSchmi · 9. März 2022

Die guten Erfahrungen mit Abbyy FineReader kann ich bestätigen. Für „Alltags Scans“ verwende ich aber seit einiger Zeit Sanner Pro auf dem iPhone. Hat auch OCR und geht sehr schnell, wenn man nicht auf ganz hohe Qualität Wert legt.

Bodhi1969 · 10. März 2022

Zitat von jewesta

Zitat von tofro

Zitat von jewesta

Nur so nebenbei: Ich verwende schon lange kein Windows mehr, aber mit Texterkennung sieht es auf dem Mac ganz fürchterlich dürftig aus.

Ich verwende das oben erwähnte Tesseract auf dem Mac

Dann muss ich mir das doch noch einmal anschauen! Verwendet das nicht auch archive.org?
Leider wird es dazu vermutlich keine GUI geben, nehme ich an? Ich muss gestehen, dass ich im Alltag dann doch eher der Mausschubser bin...

Doch, GUI´s gibt es da auch. Schau dir mal diese Seite an.

klaly · 10. März 2022

Eigentlich finde ich ja Linux ganz super toll, so wie gesamte Open Source Szene.
Ich bewundere die Leute, die ALLES mit Linux machen.
Aber ich bin halt so furchtbar bequem und außerdem bei uns auf der Arbeit sind sie ja 120% ige M$ und somit Windows Anhänger.

Den Tesseract für Windows muss ich mir mal näher ansehen.

mfG. Klaus Loy

tofro · 10. März 2022

Zitat von Bodhi1969

Zitat von jewesta

Zitat von tofro

Zitat von jewesta

Nur so nebenbei: Ich verwende schon lange kein Windows mehr, aber mit Texterkennung sieht es auf dem Mac ganz fürchterlich dürftig aus.

Ich verwende das oben erwähnte Tesseract auf dem Mac

Dann muss ich mir das doch noch einmal anschauen! Verwendet das nicht auch archive.org?
Leider wird es dazu vermutlich keine GUI geben, nehme ich an? Ich muss gestehen, dass ich im Alltag dann doch eher der Mausschubser bin...

Doch, GUI´s gibt es da auch. Schau dir mal diese Seite an.

Die sind leider alle nicht ganz so dolle und werden möglicherweise die Erwartungshaltung eines "professionellen Maussschubsers" enttäuschen. Das tut der Funktionalität des eigentlichen OCR-Programms aber keinen Abbruch. Hier lohnt es sich vielleicht wirklich, sich auf die Kommandozeile zu begeben.

Bodhi1969 · 10. März 2022

Zitat von tofro

Hier lohnt es sich vielleicht wirklich, sich auf die Kommandozeile zu begeben.

Damit habe ich überhaupt kein Problem, ich nutze Tesseract seit etwa 10 Jahren unter Linux.

Tags