Frage an die Daten-Forensiker im Forum

  • Wenn die Kohle stimmen sollte, würde es sich lohnen, das ganze in 128-Byte-Schnipsel zu zerlegen und das nach HTML oder RTF zu filtern, also die WS-Formatierung zu konvertieren. Dann wäre auch egal ob der WS-Header da ist und intakt ist.

    Man könnte dann auch die fehlenden Teile durch Abgleich per diff rekonstruieren.

  • Hier wird sehr viel Aufwand betrieben. Reicht es denn nicht, wenn man weiß, was als Text drin steht?

    Ach weißt du, warum beschäftigen wir uns mit alten Systemen, die größer und langsamer als die Emulatoren sind und wo ständig etwas repariert werden muss... ist nicht wirklich effizient, zumindest bei den meisten, die das als Hobby betreiben.


    An solchen Daten hängen manchmal Emotionen - und wenn man gerade Zeit und die letzen 25 Jahre Reverse Engineering und Datenanalyse gemacht hat - warum nicht. Vielleicht mache ich das auch einfach gerne :)

            move.w  #%0010011100000000,sr

  • Hier wird sehr viel Aufwand betrieben. Reicht es denn nicht, wenn man weiß, was als Text drin steht?

    Ach weißt du, warum beschäftigen wir uns mit alten Systemen, die größer und langsamer als die Emulatoren sind und wo ständig etwas repariert werden muss... ist nicht wirklich effizient, zumindest bei den meisten, die das als Hobby betreiben.


    An solchen Daten hängen manchmal Emotionen - und wenn man gerade Zeit und die letzen 25 Jahre Reverse Engineering und Datenanalyse gemacht hat - warum nicht. Vielleicht mache ich das auch einfach gerne :)

    Ja gut. Das ist jetzt euer Ding. Die Frau wollte wahrscheinlich nur wissen, was für Daten drin sind. Für sie dürfte das Thema abgehakt sein.

  • Ja gut. Das ist jetzt euer Ding. Die Frau wollte wahrscheinlich nur wissen, was für Daten drin sind. Für sie dürfte das Thema abgehakt sein.

    Darum wäre es sicherlich gut, der Frau mitzuteilen was da drin ist und sie zu fragen, ob und welchen Obolus sie zu entrichten bereit wäre für eine Wiederherstellung dessen, was wiederherstellbar ist, da mittlerweile klar ist, dass es nicht mit einer gewöhnlichen Formatkonvertierung getan ist.

  • Hallo 6502 und RetroShare ,


    Ich werde die Erkenntnisse über die Images und den Daten meiner Kollegin mitteilen. Dann kann Sie ja entscheiden, ob sich weitere Daten-Forensik lohnt und was es ihr Wert ist.


    Vielen Dank an alle für die Hilfe.

  • Die CARTHAGO.DFL ist kein Wörterbuch, sondern die eine "Dateiliste" mit (litte-endian) Offsets in die CARTHAGO.001 (scheint also eine Art Archiv zu sein).

            move.w  #%0010011100000000,sr

  • sed ist nicht wirklich das geeignete Tool aber ok für quick and dirty Einblicke.

    Um eine schöne Darstellung der Tabellen im Wordstar-Dateiformat in HTML/CSS zu machen würde ich Perl verwenden.


    Jedenfalls, das ist das was rauskommt wenn man die atarist.txt Datei durch sed schiebt mit dem Kommando:


    Code
    % cat -v Carthago_Raw_data_Atarist.txt | sed 's/-eM//g' | sed 's/M-//g' | sed 's/\^[DM]//g'

    Wie man leicht erkennen kann, besteht der Grossteil des Dokuments aus Tabellen, wohl mit Messdaten aus der radiometrischen Datierung:


    Diese Nachricht ist zu lang. Es stehen maximal 10.000 Zeichen zur Verfügung.

    Ich habe daher die vollständige Datei angehängt, dass Ihr den Inhalt beurteilen und überlegen könnt ob und wieviel Euch eine Aufbereitung der Dateien wert wäre. Die Datei wurde im DOS/Windows Format (CRLF) in UTF-8 gespeichert.


    Anfragen wegen Datenaufbereitung nehme ich gerne entgegen, immer bereit, der Wissenschaft zu dienen ::heilig::

  • [...] wenn man die atarist.txt Datei durch sed schiebt [...]

    In der AtariST-Variante fehlt die Hälfte der Sektoren.

    In der IBM-Variante fehlen nur zwei Sektoren im großen Bericht (verslag).


    Anbei IMG, DFL/001 extrahiert und die Streams separiert.

    (ich nenne sie mal 'Streams' und nicht 'Dokumente', weil die Daten nicht vollständig zum WS-Format passen und der 'Header' noch enthalten ist).

    carthago-img.zip


    ps: Die Trennung in 'Index'- und 'Kapitel'-Datei klingt eher nach WordCraft (wobei dort die Index-Datei wohl auf .DOC endet): https://www.nationalarchives.gov.uk/PRONOM/fmt/1723

    Ohne weitere Details wird es wohl bei der groben Extraktion der Texte bleiben...


    pps/OT: was man nicht alles findet, wenn man nach alten Sachen sucht (MP 6/1990)

            move.w  #%0010011100000000,sr

    Edited 3 times, last by nicode ().

  • Irgendwie sind die *.DFL und *.001 Dateiendungen merkwürdig - ich kenne kein Programm, dass diese verwendet hat.


    Auch wenn die Datei sicher "Wordstar-artig" ist, scheint sie doch etwas anders zu sein. Ich habe mal mit Wordstar Formatbeschreibungen verglichen und mache scheine zu passen (Unterstreichen, doppelter Druck, was alles auf einen Typenraddrucker hinweist), manche sind aber merkwürdig.


    Viele Textverarbeitungsprogramme haben sich ja an Wordstar orientiert, von daher kann es durchaus auch etwas anderes sein.


    WordPerfect wurde ja schon anfangs genannt - hätte aber normalerweise eine *.WPD Dateiendung.

    WordPerfect 5.1 kann mit der Datei wenig anfangen - filtert auch nicht bit 7 heraus.


    Ich denke aber, dass "man" schon aus den oben schon gezeigten, gefilterten Daten durch manuelle Nacharbeit einen neuen Text mit den alten Inhalten erstellen kann - wenn jemand unbedingt die Daten haben möchte.


    Martin


    WordPerfect 5.1:

  • Irgendwie sind die *.DFL und *.001 Dateiendungen merkwürdig - ich kenne kein Programm, dass diese verwendet hat.

    Soweit ich gelesen habe, hat Wordstar anfangs auch keine bestimmten Endungen verwendet. Habe es auch damit versucht, aber leider kein Erfolg.



    Ich habe jetzt noch eine andere Ecke beleuchtet, die Geometrie aus dem Sicherungsimage (IBM-Version).


    Ich gehe davon aus, dass es sich bei der Quelle um ein CP/M handelt.

    Daraus und aus der Größe der Datei, sowie den zwei ausgefallenen Sektoren, schließe ich (mit großer Wahrscheinlichkeit) auf folgende Konstellation:


    Diskette mit 80 Spuren beidseitig, zu je 9 x 512 Bytes, ergibt 720KB, was der Länge der Imagedatei entspricht.

    Zwei Tracks sind fürs System reserviert. Ab hex 2400 beginnt das Directory und umfasst 8KB.

    Die CP/M-Datenblöcke (Unitsize) sind jeweils 4KB groß.

    Die Eintragungen im Verzeichnis sind jeweils 8 Bit lang, also 16 Stück je Extent.


    Daraus ergeben sich folgende CP/M-Parameter:

    Unit-Size = 4KB

    AL0 = 11000000, AL1 = 0

    DRM = 255

    BSH = 5

    BLM =31

    DSM = 177

    EXM = 3


    Ich habe dann in meinem SAMCONV.xls nach solch einer Konstellation gesucht und auch gefunden.


    Der mögliche Quellrechner ist ein ALTOS Series 5 (läßt sich aber nicht 100%-ig sagen)



    Vielleicht hilft es aber ein mögliches Textprogramm zu finden, dass auf die Datei passt. Ich hatte leider mit ALTOS nichts zu tun, aber vielleicht gibt es jemanden, der sich damit auskennt.


    PAW

  • Ich habe gerade eine Altos 5 zur Beobachtung hier und werde mal probieren, ob das Image im Gotek lesbar ist, wenn ich CP/M auf der Kiste boote.

  • Ich gehe davon aus, dass es sich bei der Quelle um ein CP/M handelt.

    Der mögliche Quellrechner ist ein ALTOS Series 5 (läßt sich aber nicht 100%-ig sagen)

    Das erste Byte in einem Directory-Eintrag ist ja der "User"-Bereich unter CP/M (0-15), im "IBM-Image" steht da 0x20:

    Code
    00002400  20 43 41 52 54 48 41 47  4f 30 30 31 03 20 20 80  | CARTHAGO001.  .|

    ... wenn man dies in 0x00 ändern, zeigt cpmls -f alt5 Carthago_Raw_data_IBM.txt einen Teil des Directory:

    Code
    0:
    carthago.001
    carthago.dfl

    ... die Dateien lassen sich dann zwar mit cpmcp -f alt5 Carthago_Raw_data_IBM.txt "0:*.*" . ohne Fehlermeldung extrahieren, haben allerdings 17 MB und sehen am Anfang so aus wie die obigen "Artefakte" ... ;)

  • Ich habe die Images in .DSK umbenannt und mit dem HxC-Gotek versucht, sie unter CP/M 2.2 auf der Altos 5 zu lesen. Erfolglos, auf "DIR" erscheint die Meldung "NO FILE". Da das Format ja offenbar auch von cpmtools verstanden wird, ist das ja ohnehin der praktikablere Weg.

  • Da es sich bei den gesuchten Daten vermutlich um viele Tabellen handelt, käme außer einer Textverarbeitung auch eine Tabellenkalkulation in Frage.


    Die gab es zahlreich, wie z.B. CALCSTAR, VisiCalc, Supercalc, Multiplan, etc.


    Wäre auch möglich, dass die Daten mittels eines Importfilters in eine Tabelle eingelesen werden können. Leider gibt es, zumindest seit Office 2003, keine Filter für alte Dateien.


    PAW

  • Nur mal eine Idee wegen der Dateiendungen (obwohl der Fund von lesbarem Klartext diese Erklärung unwahrscheinlich macht): Es könnte sich um ein komprimiertes Archiv gehandelt haben. Komprimierungsprogramme, die Archive teilen konnten, haben oft für den ersten Datensatz ihre normale Dateiendung benutzt, und für die weiteren dann .001, .002 usw. Die Buckstabekoombination .DFL könnte dann für "Deflate" stehen: https://en.wikipedia.org/wiki/Deflate

    Nachteil: Es gibt zumindest nach meiner kurzen Suche keine Hinweise auf die Verwendung eines "Deflate" genannten Verfahrens vor den 90ern, allerdings wären die Grundlagen desselben (laut Wikipedia-Artikel LZ77 und Huffman) alt genug, um zu einem System wie dem Altos 5 zu passen. Gab es unter CP/M derartige Komprimierungstools überhaupt?

  • Es könnte sich um ein komprimiertes Archiv gehandelt haben.

    Die Streams (Dokumente) sind nicht komprimiert, nur proprietär strukturiert. Mir ist gestern noch etwas aufgefallen (erklärt die Binärwerte zwischendurch), muss es nur noch validieren - aber erstmal arbeiten, vielleicht heute Abend/Nacht...


    ps: bei DFL tippe ich auf Document File List

            move.w  #%0010011100000000,sr

  • Es könnte sich um ein komprimiertes Archiv gehandelt haben.

    Die Streams (Dokumente) sind nicht komprimiert, nur proprietär strukturiert. Mir ist gestern noch etwas aufgefallen (erklärt die Binärwerte zwischendurch), muss es nur noch validieren - aber erstmal arbeiten, vielleicht heute Abend/Nacht...



    wie zum Beispiel ein LBR Archive ?

    Mit freundlichen Grüßen


    fritz

  • Habe auf der Suche folgendes gefunden. Hört sich interessant an!

    Applications Supported by Star Exchange

    Star Exchange supports over 50 applications. You can convert files from your favorite word processor as well as spreadsheets and databases. For a complete list of the supported applications, see "Supported Applications" in the Appendix.


    Supported Applications

    The applications listed below are supported by Star Exchange.

    WORD PROCESSORS

    Â Â
    PC-Based Format Version/Release
    DEC WPS PLUS (DX) 3.0 and earlier
    DisplayWrite 2, 3, 4, 5 All
    First Choice 3.0 and earlier
    IBM Writing Assistant 1.01
    MASS-1 1 8.0 and earlier
    Microsoft Word 4.0 through 5.5
    MultiMate 3.6 and 4.0
    MultiMate Advantage All
    MultiMate Advantage 2 All
    Nota Bene 3.0
    PFS:Write A, B, and C
    Professional Write 2.2 and earlier
    Samna Word IV Plus and earlier
    SmartWare II 1.5 and earlier
    Volkswriter 3, 4 All
    Wang PC (IWP) 2.6 and earlier
    WordMARC Composer Plus and earlier
    WordPerfect 5.1 and earlier
    WordStar 7.0 and earlier
    WordStar 2000 3.5 and earlier
    XyWrite III+ and earlier
    Â Â
    Macintosh-Based Format Version/Release
    Microsoft Word 4.0
    WordPerfect 2.0 and earlier
    Mac Write II 1.1
    Â Â
    Other Formats Version/Release
    ASCII N/A
    Intelligent ASCII N/A
    DCA/FFT All
    DCA/RFT All
    Navy DIF All
    Microsoft RTF 1.0 and earlier

    SPREADSHEETS

    Â Â
    Application Version/Release
    Enable 3.0
    First Choice 3.0 and earlier
    Framework III and earlier
    Lotus 1-2-3 3.0 and earlier
    Lotus Symphony 2.0 and earlier
    Microsoft Excel 2.0 through 3.0
    Microsoft Works 2.0
    Mosaic Twin 2.5
    PFS: Professional Plan 1.0
    Quattro PRO and earlier
    SuperCalc 5 All
    SmartWare II 1.5
    VP Planner 3D 1.0

    DATABASES

    Â Â
    Application Version/Release
    dBASE IV and earlier
    Data Ease 4.0
    dBXL 1.3
    Enable 3.0
    First Choice 3.0 and earlier
    FoxBase 2.1
    Framework III
    Microsoft Works 2.0
    Paradox 2.0 through 3.5
    Q&A 3.0
    R:Base 3.1 and earlier, System V, Personal
    Reflex 2.0 and earlier
    SmartWare II 1.02 through 1.5


    Die Frage ist nur, woher man die Software bekommt und wo sie läuft, bzw. ob sich jemand hier damit auskennt? Ich habe zum ersten Mal davon gehört.


    Wenn damit die Datei nicht zu lesen ist, dann sehe ich sowieso schwarz! :(


    PAW

  • Die Frage ist nur, woher man die Software bekommt und wo sie läuft, bzw. ob sich jemand hier damit auskennt?

    "Star Exchange" war z.B. bei "WordStar 2000" dabei: dessen Datei-Format war nicht mit den anderen WordStar-Versionen (3.0 - 7.0) kompatibel und soll auch Tabellen unterstützt haben ... CARTHAGO.001 wird zwar in "WordStar 2000" vollständig geladen, die Formatierung ist allerdings nicht korrekt ... auch mit "Sprint" von Borland getestet, welches wohl weniger bekannt war/ist ...

  • Das Problem ist wahrscheinlich eher, dass das Image auf dem Weg ins Forum seine Nullzeichen verloren hat (hat wahrscheinlich damit zu tun, dass die Dateien die Endung .txt haben und ein besonders "intelligentes" Programm alle 0x00 durch 0x20 ersetzt hat - was auch erklärt, warum die defekten Sektoren mit Leerzeichen gefüllt sind).


    Kurz, so wie es ist, wird es wahrscheinlich kein Programm richtig öffnen.


    Ansonsten zur Grundstruktur eines Dokuments:

    Header: 48,__[8+3?]

    Block: __,52,__,__,nn,__,tt[nn-6]


    Wenn man die Header entfernt und alles andere so lässt, dann bleibt beim kleinsten Dokument das übrig: carthago.morgen.strip.txt


    Die Sicherung ist also beschädigt und eine Wiederherstellung muss wahrscheinlich manuell erfolgen.

            move.w  #%0010011100000000,sr

    Edited 3 times, last by nicode ().

  • Das Problem ist wahrscheinlich eher, dass das Image auf dem Weg ins Forum seine Nullzeichen verloren hat (hat wahrscheinlich damit zu tun, dass die Dateien die Endung .txt haben und ein besonders "intelligentes" Programm alle 0x00 durch 0x20 ersetzt hat - was auch erklärt, warum die defekten Sektoren mit Leerzeichen gefüllt sind).

    Gut beobachtet! :thumbup: Es gibt tatsächlich in den kompletten Images (IBM und Atari) kein einiziges Byte mit hex(00). Erlärt auch, warum im CP/M Inhaltsverzeichnis bei der Usernummer hex(20) statt hex(00) steht.


    Die Diskette war leider auf meinem Pentium 4 nicht mehr lesbar. Die Oberfläche der Diskette sah schon sehr abgeschliffen aus.

    Hallo abrandt,


    wie Du siehst ist der Weg über die beiden Images nicht weiter zielführend (ausgenommen manuelle Rekonstruktion). Außer auf Deinen Imagedateien sind noch die hex(00) vorhanden. Mit einem Hexeditor ansehen und nach hex(00) suchen.


    Vielleicht solltest Du nochmal auf die Originaldiskette zurückkommen. Eventuell findet sich jemand im Forum, der Dir die Diskette einlesen kann (möglichst auf Fluxbasis).


    PAW

  • weil ich gerade drüber gestolpert bin: wäre Kaitai Struct was, was bei so einer Aufgabe helfen könnte? (ja, ich weiß, die Daten sind wahrscheinlich korrupt (0x00/0x20)):

    Kaitai Struct: declarative binary format parsing language


    von heise.de:
    "Kaitai Struct hilft beim Analysieren, Dokumentieren und Lesen von Binärdateien.

    Selbst in Zeiten lesbarer, geschwätziger XML- und JSON-Datenbestände nehmen Binärformate einen wichtigen Platz ein: Dateisysteme, Bilddateien und vieles Weitere liegt in dieser Form auf Datenträgern herum. Mit Kaitai Struct filetieren Sie solche Daten reproduzierbar. Die deklarative Sprache beschreibt in simplem YAML das Format binärer Daten. Verschiedene Werkzeuge visualisieren die Beschreibung und überführen sie in ausführbaren Code, um die Daten in verschiedenen Programmiersprachen lesen zu können.

    Erste Schritte mit Kaitai fallen leicht: Es gibt eine IDE, die im Browser läuft und die das Funktionsprinzip verstehen hilft. Sie bringt eine Liste bereits fertiger Deklarationen für Formate wie PNG-Dateien und auch einige Beispieldateien mit. Mit wenigen Klicks kann man sich so Informationen wie Bildgröße und Farbtiefe anzeigen lassen, sieht aber auch die interpretierten Daten in Hex und erfasst schnell die Funktionsweise."

    Permanente Gäste: mein Amiga 500 von damals™ mit A1k-SRAM-IDE, ein Amiga 2000 mit 2630 (4MB, FPU), BigRAM2630, VA2000, Kick 3.1, LAN-IDE-Clockport, eine A2088 braucht noch Zuwendung
    temporäre Gäste: A500 zur Reparatur