Hilfe! Server gecrasht :( Jemand Erfahrung mit Linux UCS 4.1.x?

    • Offizieller Beitrag

    Hi Leute,


    mal was ganz anderes...habe hier einen Schulserver stehen, bei dem wohl jemand gemeint hat, zwei Serverplatten gleichzeitig zu ziehen und die Backup-NAS stand auch nicht mehr gesund da, wie und wo sie sollte und somit hmm.. nicht wirklich brauchbar.


    Stand jetzt, steht das RAID5 zwar wieder und alle Maschinen sind soweit da, manuelles Backup auf andere NAS wurde gezogen und alle VMs laufen sauber bis auf den UCS Server AD DC Master :/


    System ist ein UCS 4.1.5 ....ich kann das System aufsetzen, soweit warten und entsprechend Dienste prüfen und konfigurieren aber wenn es dann tiefer geht, fehlt mir die Erfahrung und das nötige Linux Fachwissen - bzw. will ich nicht noch mehr kaputt machen :(


    Anbei mal paar Screenshots...einige Dienste starten nicht weil Zugriffe nicht funktionieren oder "korrupt" scheinen :/ möchte ungern alles neu aufsetzen müssen == XX Clients neu einbinden <X


    So derbe war es bisher nie, im Normalfall wenn alles nichts hilft, hätte man ja auch ein sauberes Backup...f*ck it...sowas kann ich aktuell garnicht brauchen und sonst hat bei uns in der Firma auch keiner mehr Ahnung :(


    Beim Hersteller "Vertrieb" dieses UCS-Derivates habe und sehe ich eher schwarz (LMZ) bin aber auch da schon am Nachtelefonieren...


    Grüße,
    Marcus

  • Wo kommen die Sachen - das System UCS - denn he, d.h. wird das von dem defekten RAID gestartet ?


    Der meckert da ja schon an ein paar Sachen rum ...

    am wichtigsten scheint mir zu sein, erstmal die Datei

    /etc/fstab

    anzuschauen. Wenn Dir das erlaubt ist und da keine Namen usf drinstehen, kannst Du die gern auch mal hier posten. Insbesondere wünscht er sich eine Newline (Return) ans Ende der Datei zu setzen und dann solltest Du schauen, ob da ein Eintrag für /var drinsteht - viele der anderen Fehlermeldungen mockieren sich schließlich darüber, daß /var/.../... nicht gefunden wird.


    Das andere, was man manuell machen kann, ist, im repair Mode das /tmp Verzeichnis komplett zu leeren.


    Viele irritierende Fehlermeldungen kommen über Bild No.10 , wo steht, daß in /var/log/suid3/cache.log nicht geschrieben werden kann, weshalb er jetzt gewillt ist, die weiteren Meldungen auf stderr auszugeben, was hier dann der Bildschirm ist und für die vielen schönen "File ... python ... py ... not found" Meldungen sorgt.

    Das sollte sich auch wieder geben, wenn das Problem mit dem /var gelöst ist.

    Varianten sind da u.a., daß /var gar nicht angemeldet wird (fehlt in /etc/fstab oder dort falsche Partition eingetragen) oder /var voll ist oder nur ein Unterordner von /var verloren ist oder die Schreibrechte dafür fehlen. Ein großer Platzhalter in /var sind normalerweise die heruntergeladenen Pakete, die man mal installiert hat, die können z.B. unter /var/cache/apt/archives liegen und, wenn's auf einer separaten größenbeschränkten Partition liegt, kann man die entfernen und dann ist wieder Platz für anderes.

    df -h | grep var

    sagt da was dazu.

    -- 1982 gab es keinen Raspberry Pi , aber Pi und Raspberries

    • Offizieller Beitrag

    tja, hatte ich vergessen zu poste.. fstab-file ist defekt bzw. leer :( hatte es schon verglichen mit einem "baugleichen" Server einer anderen Schule...da ist auf jeden Fall schonmal sh*t passiert.


    fsck schmeißt eben das aus wie im Bild "14" ..oder wait, welchen command meinst du?


    Ja das System hatte ich nochmal direkt gesichert, nachdem es wieder oben war - auf eine andere NAS, da die eigentliche BACKUP-NAS auch was abbekommen hatte...


    Mittlerweile lichten sich auch die Gründe..nach nochmaliger Rücksprache mit der Schulleitung und Personen vor Ort.

    Es wird vermutet, das jemand im Serverraum war und irgendwer oder irgendwas gegen den kleinen Serverschrank gedonnert ist. Ist ein kleiner 100cm, hüfthoher Schrank :(


    Deren Problem war auch bisher, der Raum war nicht wirklich "gesichert" und Hinz- und Kunz konnten ausgehen...wird wohl (hoffentlich) ab jetzt geändert.


    Das System startet von einem "reinitialisierten" RAID5 auf nem P440ar (HP DL380 Gen9) aus einem ESXi 5.5 gehostet, ...bzw. ja, seit vorhin meckert das System nun Platte 2 an :( ich krieg die Kotze...da muss ich nochmal rein, anbei noch was ausgegeben wird ::leia::


    ..hach,... um 16 Uhr bin ich weg für 2 Tage - ob das was wird :S

    • Offizieller Beitrag

    ...sorry für die Verwackelung, zuviel Kaffee, zu wenig Schlaf und noch kein Frühstück gehabt :radioactive:

    • Offizieller Beitrag

    Juup, meinte fsck ... jetzt Bild #14.


    Tja, erst einmal die Platte 2 fixen und dann fstab restoren ...

    fstab restoren? hülf mir mal kurz ::heilig:: wait...

    • Offizieller Beitrag

    Juup, meinte fsck ... jetzt Bild #14.


    Tja, erst einmal die Platte 2 fixen und dann fstab restoren ...

    fstab restoren? hülf mir mal kurz ::heilig:: wait...

    Ich würde versuchen die Datei /etc/fstab wiederherzustellen. Die müsste ja hoffentlich noch auf einem Backup zu finden sein.


    Ohne die kommst du nicht wirklich weiter, ausser du machst die neu von Hand. Dann müsstest du erst einmal die Partitionen listen.


    Gruss,

    Peter

  • Auf deinem letzten Bild müsste es

    Code
    df -h | grep var

    und nicht "... \ grep ..." heißen. Dein Koffeinpegel scheint ja schon hoch zu sein ;)

    Schau mal in /var ob da überhaupt was drin ist. Wenn nicht, dann fehlt wohl die Partition.


    Die Ausgabe "/dev/mapper/vg_ucs-rootfs" deutet auf ein LVM2-System hin.

    Schau mal nach den Ausgaben von pvs, vgs und lvs. Vielleicht gibt's ja ein

    /dev/mapper/vg_ucs-varfs?


    Viel Erfolg!

    Das Genie beherrscht das Chaos

  • Und fdisk -l zum anzeigen aller vorhandenen Partitionstabellen könnte auch helfen.

    Auf einem der ersten Bilder sieht man, dass der Server auf einem VMware ESX-Server läuft.

    Bist du denn sicher, dass die VM-Konfig passt? Fehlt da vielleicht noch eine Platte?

    Das Genie beherrscht das Chaos

    • Offizieller Beitrag

    Wie gesagt, das Backup war/ist auch betroffen :( die vmdk's sind aber zumindest da.



    dacht ich mir, versuch ich gleich...


    Und fdisk -l zum anzeigen aller vorhandenen Partitionstabellen könnte auch helfen.

    Auf einem der ersten Bilder sieht man, dass der Server auf einem VMware ESX-Server läuft.

    Bist du denn sicher, dass die VM-Konfig passt? Fehlt da vielleicht noch eine Platte?

    ..wird nochmal gecheckt :)

  • Zu dem LVM Thema scheint ja aber auch was mit dem Networking nicht zu stimmen. Alle Interfaces da mit der Richtigen IP ?

    Ich würde mich aber trotzdem erst auf die Platten konzentrieren. Das Netzwerk kann auch ein Folgefehlr sein.

    Sehr viele Fehlermeldungen deuten auf /var hin ("/var/.... not found/not accessible u.ä.)

    Ohne /var läuft Linux net so richtig.

    Das Genie beherrscht das Chaos

  • Mich wundert doch sehr das /etc/fstab so leer ist .... ohne dem sollte es auch nicht richtig laufen.

    Und manch Fehler geht auch auf fehlerhaftes in /etc hin. Dabei sollte /etc nicht woanders her gemountet sein ....


    Würde, mit lsblk und pvs schauen ob es noch mehr partitionen/dateisysteme gibt. Bootet er überhaupt 'das richtige'?

    • Offizieller Beitrag

    ..ah da war doch was... nei.. aktuell läuft rebuild der Platte 2..also für heute nichts mehr.

    • Offizieller Beitrag

    Nur mal als zusätzlicher Hinweis. Der Support von ESXi 5.5 ist seit dem 18. Sept. 2018 abgelaufen. Keine Sicherheitsupdates mehr.

    Deshalb fragt Marno ja auch hier im Classic Computing Forum ...

  • Nur mal als zusätzlicher Hinweis. Der Support von ESXi 5.5 ist seit dem 18. Sept. 2018 abgelaufen. Keine Sicherheitsupdates mehr.

    Deshalb fragt Marno ja auch hier im Classic Computing Forum ...

    Und ich glaub jetzt auch nicht das die vSphere Umgebung/ ESX(i) das Problem verschlimmern :)

  • Mich wundert doch sehr das /etc/fstab so leer ist .... ohne dem sollte es auch nicht richtig laufen.

    Und manch Fehler geht auch auf fehlerhaftes in /etc hin. Dabei sollte /etc nicht woanders her gemountet sein ....


    Würde, mit lsblk und pvs schauen ob es noch mehr partitionen/dateisysteme gibt. Bootet er überhaupt 'das richtige'?

    Wenn /etc im rootfs liegt und das rootfs in der Kernel-Cmdline steht, dann geht's auch ohne fstab (d.h. früher ging das nicht, dann ging's mal und evtl. geht's auch schon wieder nicht mehr)

    Das Genie beherrscht das Chaos

    • Offizieller Beitrag

    Nur mal als zusätzlicher Hinweis. Der Support von ESXi 5.5 ist seit dem 18. Sept. 2018 abgelaufen. Keine Sicherheitsupdates mehr.

    Ehm...das System steckt in ner Schule..da muss man froh sein, wenn überhaupt Geld da ist das Ding warten zu dürfen...


    Abgesehen davon, war es zu damaliger Zeit das stabilste ESXi ... Der Sicherheit einer Schule (rein Pädagogik) tut das sicher keinen Abbruch - mal abgesehen von den vorgeschalteten Ciscos


    Ich muss damit leben und nun wieder hinbiegen ;) ..ach und das Problem liegt nicht am ESX, sondern an a) kaputten RAID5 HW Seite DL380 und b) VM seitig innerhalb des UCS ::vodoo:: somit vShpere ist da erstmal wuscht ;)


    Aber: jetzt muss da mein Kollege ran, ich komm erst Montag wieder ins Büro :tüdeldü:

  • Dass das Problem nicht daran liegt, ist mir prinzipiell klar, auch wenn ich mir vorstellen kann, dass ein ESXi-Server auch nicht davon begeistert ist, wenn man ihm mal eben 2 Platten vom lokalen Datastore oder NAS weg nimmt. Aber solange der ESXi ohne vCenter läuft, ist der eh umsonst zu haben, also so hoch sind die Kosten nicht zum Upgrade auf 6.5 oder 6,7, wenn man von der Arbeits- und Ausfallzeit absieht. Aber andererseits, warte mal ab, wenn der Schule mal jemand was von der Azure-Cloud für Schulen und den ganzen Möglichkeiten, die damit zusammen hängen, erzählt, dann wird vielleicht sowieso ein radikaler Umbau in Betracht gezogen. Ich hab mich da mal Interessehalber reingelesen, abgesehen davon, dass das die Einführung der Cloud bedeutet, bei einem amerikanischen Unternehmen (was sich aber an die DSVGO halten muss!), und abgesehen von dem dass die Office-365-Cloud momentan tierisch Schluckauf hat, ließt sich das nämlich ganz toll. Partiell nutze ich das schon privat, die darüber administrierbaren Kinderaccounts sind eine gute Sache, man muss sich nur bewusst machen, was man aufs onedrive legt, und was nicht. Aber... ich schweife vom Thema ab. Gib mal die Info mit der scheinbar fehlenden fstab an deinen Kollegen weiter und nächste Woche wenn du wieder da bist läuft das hoffentlich schon wieder. Besser morgen schon, als erst am Freitag, die armen Kinder! ;)