Interessantes Problem

Im Zusammenhang mit dem Serverausfall wurde nun das Problem lokalisiert - wie ich finde mal wieder sehr interessant. Nachdem sich der Server nämlich letzte Nacht kurz nach 04:00 Uhr wieder verabschiedet hat, habe ich heute mal nachgeschaut was da so für Cron-Jobs laufen. Ursprünglich hatte ich den Backup-Prozess in Verdacht, aber der läuft schon eine Stunde vorher. Um vier Uhr aber ist die Log-Analyse mit Webalizer dran. Und da musste ich mir nur eine Datei anschauen um meinen nächstbesten Verdacht zu bestätigen: die Datei “dns_cache.db” war über 1.2 GB groß. :shock:

So effizient Webalizer auch sein mag, mit einem soooo großen DNS-Cache kommt er wohl auch nicht mehr locker zurecht. Auf besagtem Server sind in letzter Zeit die Zugriffe massivst gestiegen - zukünftig wird diese Datei also nicht mehr nach einer bestimmten Zeit, sondern nach Erreichen einer bestimmten Größe gelöscht. :-)

Auf zwei neueren Hosting-Servern testen wir übrigens bereits den optionalen (!) Einsatz von AWStats - wenn da keine Unregelmäßigkeiten auftauchen geht das in den Produktivbetrieb.

5 Bemerkungen zu “Interessantes Problem”

  1. Rüdiger

    Hallösche,
    interessant. Wie hat sich der Server dann verabschiedet? Hatte er eine Kernel Panic/war er per Ping noch da?
    Ich frage aus Monitoring-Sicht, habt ihr es gleich gemerkt?

  2. Klaus Keppler

    Nö, eine Kernel Panic darf in so einem Falle ohnehin nicht auftreten. Der Webalizer-Prozess hat einfach den kompletten zur Verfügung stehenden Speicher aufgefressen, so dass der Kernel irgendwann keine anderen Prozesse mehr forken konnte.
    Unter anderem ging daher z.B. kein SSH-Login mehr (da hierfür ja pro Verbindung mindestens 2 neue Prozesse gestartet werden).

    Wir überwachen alle Server auf Anwendungsebene, also z.B. auch ob SSH noch geht oder ob spezielle Web-Anfragen (PHP-Script mit kleiner Datenbankabfrage) ein definiertes Ergebnis zurückliefern.

    In diesem Fall hat Nagios zuerst Timeouts gebracht, einige Minuten später sind die Tests komplett fehlgeschlagen.

    Die Alarmierung vom Nagios kam keine 10 Minuten nach den ersten syslog-Einträgen vom Kernel über mangelnden Arbeitsspeicher. :)

  3. Rüdiger

    Hehe, kommt mir bekannt vor…
    Wiviele hosts/services monitored ihr per Nagios (interessenhalber, da ich gerade Probleme mit der Performance habe)?

  4. Klaus Keppler

    Solche Zahlen gehören leider zum Betriebsgeheimnis. :-)

    Die Anzahl der Hosts ist aber im zweistelligen Bereich, die Anzahl der Services bereits fast im dreistelligen.

    Die Performance von Nagios ist aufgrund der Architektur in der Tat ein Problem - mittelfristig werden alle trivialen Monitoring-Jobs in unser eigenes (optimiertes) Verwaltungssystem integriert. Da wird dann nicht für jeden Ping-Test ein einzelner Prozess gestartet, so wie Nagios es macht… :-|

  5. Rüdiger

    `Wollte hier bestimmt nicht irgendwelche Betriebsgeheimnisse entlocken… ;)
    Ich habe in unserer Umgebung Hosts im guten 3-stelligen Bereich und Services im 4-stelligen. Aber die Performance ist momentan nicht optimal…

Einen Kommentar schreiben