Digitalisierung von UCSD Programmen auf Endlospapier

  • Hallo in die Runde,

    ich habe hier bei mir noch ein paar Zentimeter gestapeltes Endlospapier mit UCSD Pascal Programmen die ich im Rahmen meiner Diplomarbeit in den 80ern auf einem Apple II geschrieben habe. Leider sind die entsprechenden 5 1/4-Zoll Disketten auf denen das alles gespeichert war im Laufe der Jahre verloren gegangen. Ich möchte die Programme aber trotzdem sehr gerne wieder in Source Format haben. Da ein Abtippen der Programme wohl einige Wochen/Monate verschlingen würde und ich im Besitz eines Scanners (HP Officejet) bin müsste es doch eigentlich eine intelligentere Möglichkeit geben, die Programme wieder zu digitalisieren. Hat jemand schonmal so etwas ähnliches versucht und könnte mir ein paar Hinweise/Tips geben? Mein Apple Apple IIe ist natürlich ebenfalls voll funktionsfähig...


    Vielen Dank...

    Liebe Grüße aus Bremen

    Andreas

  • Du kannst dem Editor des p-Systems einen "ganz normalen" Text vorsetzen. Er wird ihn beim Abspeichern in das kürzere UCSD-Format wandeln. Wie der mit TABs umgeht, weiß ich allerdings nicht mehr.


    Zum Thema OCR: in den 1990ern kaufte ich mir als Scanner zum Mac einen Microtek E6, bei dem Omnipage mitgeliefert wurde. Die Ergebnisse von Scannen und OCR lagen je nach Zeichensatz zwischen unbrauchbar und "naja". Manuelle Nacharbeit war immer nötig, insbesondere bei Satzzeichen.


    Gruß, Ralf

  • Thema OCR, wie gut sind die Listings gedruckt? Will heißen, wie hoch ist der SW-Kontrast. Wie klar sind die Zeichen lesbar, aus der Sicht der Software wohlgemerkt. Was Ich noch gut lese, erkennt die Software nicht immer. Meine Erfahrung mit Listings aus Heften ist eher Banane. Es war ein hoher Anteil Nachbearbeitung nötig. Habs dann gelassen...

    Viele Grüße,

    Knut

    :cat2:

  • Kontrast ist kein Problem, weil das durch die Scan-Software angepaßt werden kann. Als problematisch habe ich "Störstellen", also die bekannte Fliegenscheiße, in Erinnerung. Das sorgt für zusätzliche Satzzeichen oder Verfälschungen in einzelnen Zeichen.


    Gruß, Ralf

  • Für normale Textdateien kann man OCR z.B. in Acrobat Professional sehr gut verwenden. Wie moderne Textverarbeitungsprogramme werden dabei Wörterbücher verwendet, sodass der Erkennungsgrad recht hoch ist (wenn die Vorlage sauber ist).


    Bei Programmen funktioniert das meist nicht gut. Dort nützt ein Wörterbuch wenig und die Unterschiede zwischen "I", "1" und "l" oder "O" und "0" lassen sich nicht einfach erkennen. Bei normalem Text hilft da das Wörterbuch, aber bei Variablennamen wie "NI", "N1" etc. versagt so etwas.

    Auch die Unterscheide zwischen Schlüsselworten und Variablennamen sind oft nur im Kontext zu erkennen. Das ist selbst für Menschen noch schwierig.


    Es wäre sicher ein interessantes Forschungsgebiet einen OCR Grammatik-Erkenner für einzelne Programmiersprachen mit ihrere beschränkten Grammatik zu schreiben, aber ich glaube, das ist schwieriger, als man denkt.


    Ich habe schon einige Programme (meist FORTRAN) mit OCR vorbehandelt, man hat dann eine gute Tippvorlage, muss aber dennoch Zeile für Zeile durchgehen und korrigieren.