Digitalisierung von UCSD Programmen auf Endlospapier

andreasv · 12. September 2021

Hallo in die Runde,

ich habe hier bei mir noch ein paar Zentimeter gestapeltes Endlospapier mit UCSD Pascal Programmen die ich im Rahmen meiner Diplomarbeit in den 80ern auf einem Apple II geschrieben habe. Leider sind die entsprechenden 5 1/4-Zoll Disketten auf denen das alles gespeichert war im Laufe der Jahre verloren gegangen. Ich möchte die Programme aber trotzdem sehr gerne wieder in Source Format haben. Da ein Abtippen der Programme wohl einige Wochen/Monate verschlingen würde und ich im Besitz eines Scanners (HP Officejet) bin müsste es doch eigentlich eine intelligentere Möglichkeit geben, die Programme wieder zu digitalisieren. Hat jemand schonmal so etwas ähnliches versucht und könnte mir ein paar Hinweise/Tips geben? Mein Apple Apple IIe ist natürlich ebenfalls voll funktionsfähig...

Vielen Dank...

Liebe Grüße aus Bremen

Andreas

rlj · 12. September 2021

Hallo Andreas,

aufwendig wird das allemal, würde ich erwarten.

https://www.macwelt.de/interna…R-Programme-11065987.html

Adobe Acrobat Pro DC
Evernote
GoogleDrive
MS OneNote
PDFPen

wären vielleicht einen Versuch wert (wie gesagt: aufwendig

Das Problem werden wohl zum einen das qualitativ hochwertige Scannen der Listings und anschliessend die Korrekturen nach den Compiler-Läufen sein.

Gruß

Roland

andreasv · 12. September 2021

Danke Dir für die schnelle Antwort

wie bekommt man denn den gescannten Text in das UCSD Pascal Text Format? Gibt es da einen Converter von txt --> UCSD Pascal txt?

RalfK · 12. September 2021

Du kannst dem Editor des p-Systems einen "ganz normalen" Text vorsetzen. Er wird ihn beim Abspeichern in das kürzere UCSD-Format wandeln. Wie der mit TABs umgeht, weiß ich allerdings nicht mehr.

Zum Thema OCR: in den 1990ern kaufte ich mir als Scanner zum Mac einen Microtek E6, bei dem Omnipage mitgeliefert wurde. Die Ergebnisse von Scannen und OCR lagen je nach Zeichensatz zwischen unbrauchbar und "naja". Manuelle Nacharbeit war immer nötig, insbesondere bei Satzzeichen.

Gruß, Ralf

Gardenman · 12. September 2021

Thema OCR, wie gut sind die Listings gedruckt? Will heißen, wie hoch ist der SW-Kontrast. Wie klar sind die Zeichen lesbar, aus der Sicht der Software wohlgemerkt. Was Ich noch gut lese, erkennt die Software nicht immer. Meine Erfahrung mit Listings aus Heften ist eher Banane. Es war ein hoher Anteil Nachbearbeitung nötig. Habs dann gelassen...

RalfK · 12. September 2021

Kontrast ist kein Problem, weil das durch die Scan-Software angepaßt werden kann. Als problematisch habe ich "Störstellen", also die bekannte Fliegenscheiße, in Erinnerung. Das sorgt für zusätzliche Satzzeichen oder Verfälschungen in einzelnen Zeichen.

Gruß, Ralf

Martin Hepperle · 12. September 2021

Für normale Textdateien kann man OCR z.B. in Acrobat Professional sehr gut verwenden. Wie moderne Textverarbeitungsprogramme werden dabei Wörterbücher verwendet, sodass der Erkennungsgrad recht hoch ist (wenn die Vorlage sauber ist).

Bei Programmen funktioniert das meist nicht gut. Dort nützt ein Wörterbuch wenig und die Unterschiede zwischen "I", "1" und "l" oder "O" und "0" lassen sich nicht einfach erkennen. Bei normalem Text hilft da das Wörterbuch, aber bei Variablennamen wie "NI", "N1" etc. versagt so etwas.

Auch die Unterscheide zwischen Schlüsselworten und Variablennamen sind oft nur im Kontext zu erkennen. Das ist selbst für Menschen noch schwierig.

Es wäre sicher ein interessantes Forschungsgebiet einen OCR Grammatik-Erkenner für einzelne Programmiersprachen mit ihrere beschränkten Grammatik zu schreiben, aber ich glaube, das ist schwieriger, als man denkt.

Ich habe schon einige Programme (meist FORTRAN) mit OCR vorbehandelt, man hat dann eine gute Tippvorlage, muss aber dennoch Zeile für Zeile durchgehen und korrigieren.

Benedikt · 12. September 2021

Bislang habe ich mit der Tesseract-OCR-Engine (Open Source) ganz gute Erfahrungen gemacht.

Mit Quelltexten habe ich es allerdings noch nicht probiert.

Für die Nachbearbeitung hilft sicherlich eine moderne IDE mit guter Pascal-Unterstützung.

Tags