IBM Cloud Docs
Schwellenwertalerts

Schwellenwertalerts

Sie können IBM Cloud Monitoring Schwellenwert-Alerts (früher Metrik-Alerts genannt) im Alert-Editor mit Hilfe eines Formulars oder PromQL definieren.

Weitere Informationen zum Konfigurieren von Alerts enthält Alert mit dem Alerteditor konfigurieren.

Festlegung der Bedingungen, unter denen ein Schwellenwertalarm ausgelöst wird

Geben Sie im Alerteditor Folgendes im Abschnitt Metrik & Bedingungen an:

Bereich
Der Alert wird standardmäßig auf die gesamte Infrastruktur Ihres Teamgeltungsbereichs angewendet. Sie können den Alertbereich jedoch einschränken, indem Sie nach bestimmten Bezeichnungen wie container_name oder kube_namespace_name filtern.
Metrik
Wählen Sie den zu überwachenden Messwert aus und konfigurieren Sie, wie die Daten zusammengefasst werden sollen. Anschließend können Sie die Aggregationsmethode auswählen, die Ihren Anforderungen am besten entspricht. Wenn Sie beispielsweise die durchschnittliche Latenzzeit im gesamten Cluster verstehen möchten, können Sie die durchschnittliche Aggregation verwenden. Wenn Sie Knoten mit der höchsten Latenzzeit ermitteln möchten, können Sie alternativ die maximale Aggregation verwenden.
Nach Segment gruppieren
Durch die Gruppierung von Metriken nach Bezeichnungen wie container_name wird für jeden Container ein eindeutiges Segment generiert. Dadurch können Sie schnell erkennen, ob ein bestimmter Container für die Leistungsentfettung verantwortlich ist.
Zeitaggregation
Die Zeitaggregation einer Warnregel wird auch als Bereich bezeichnet und bestimmt das Zeitfenster, über das die ausgewählte Metrik aggregiert wird. Wenn Sie z. B. die Aggregation avg für die Metrik cassandra_read_latency mit einem bestimmten Bereich auswählen, wird der Durchschnittswert der Metrik cassandra_read_latency über dieses Zeitfenster berechnet. Dieser Bereich legt fest, wie weit zurück die Metrikwerte für die Zeitaggregation berücksichtigt werden.
Dauer
Die Dauer legt fest, wie lange eine Alarmbedingung ununterbrochen erfüllt sein muss, bevor ein Alarm ausgelöst wird. So bedeutet beispielsweise eine Dauer von 10m, dass die Bedingung 10 Minuten lang ununterbrochen erfüllt sein muss. Wenn die Alarmbedingung zu irgendeinem Zeitpunkt innerhalb dieses Zeitraums nicht erfüllt wird, wird der 10-Minuten-Timer zurückgesetzt und muss erneut für volle, ununterbrochene 10 Minuten erfüllt werden. Die Einstellung einer längeren Dauer reduziert Fehlalarme, da sie verhindert, dass Alarme durch kurzzeitige Schwellenwertverletzungen ausgelöst werden.

Zeitaggregation und Dauer

Die Zeitaggregation einer Alert-Abfrage definiert den Zeitraum, über den die relevanten metrischen Daten ausgewertet werden. Sie ist nicht zu verwechseln mit der Dauer einer Warnregel, die sich auf die Zeitspanne bezieht, die eine Warnbedingung erfüllt sein muss, bevor sie eine Warnung auslöst.

Schwellenwerte

Definieren Sie den Schwellenwert und den Zeitraum für die Bewertung der Alertbedingung.

Zusammenlegungsmethoden
Aggregation Beschreibung
Durchschnitt Der Durchschnitt der abgerufenen Metrikwerte über den gesamten Zeitraum.
Summe Die Summe des Messwerts über den ausgewerteten Zeitraum.
Maximum Das Maximum der abgerufenen Metrikwerte über den Zeitraum.
minimum Das Minimum der abgerufenen Metrikwerte über den Zeitraum.

Bilder in Schwellenwert-Warnmeldungen

Schwellenwertalarm-Benachrichtigungen, die an Slack oder per E-Mail weitergeleitet werden, enthalten einen Snapshot der auslösenden Zeitreihendaten. Für Slack-Benachrichtigungskanäle kann die Momentaufnahme in den Benachrichtigungskanaleinstellungen aktiviert bzw. inaktiviert werden. Wenn der Kanal mit Bei Auflösung benachrichtigenkonfiguriert ist, wird in der Benachrichtigung auch eine Momentaufnahme der Zeitreihendaten bereitgestellt, die den Alert auflösen.

Mehrere Schwellenwerte konfigurieren

Zusätzlich zu einem Alertschwellenwert kann ein Warnungsschwellenwert konfiguriert werden. Warnungsschwellenwerte und Alertschwellenwerte können verschiedenen Benachrichtigungskanälen zugeordnet sein. Im folgenden Beispiel möchte ein Benutzer möglicherweise eine Warnung und eine Alertbenachrichtigung an Slack senden, aber auch das Bereitschaftsdienst-Team auf Pagerduty setzen, wenn ein Alertschwellenwert erreicht wird.

Wenn sowohl Warnungs-als auch Alertschwellenwerte demselben Benachrichtigungskanal zugeordnet sind, ignoriert eine Metrik, die den Alertschwellenwert sofort überschreitet, den Warnungsschwellenwert und löst nur den Alertschwellenwert aus.

Benachrichtigung, wenn keine Metrikdaten vorhanden sind

Wenn eine Metrik die Berichterstellung stoppt, können Alerts, die diese Metriken verwenden, nicht ausgewertet werden. Um sicherzustellen, dass Sie wissen, wann dies geschieht, können Sie Alerts konfigurieren, die bei Keine Daten benachrichtigt werden, indem Sie die Option Keine Daten im Abschnitt Einstellungen so konfigurieren, dass sie entweder ignoriert oder benachrichtigt wird.

Alertkonfiguration in PromQL übersetzen

Sie können automatisch aus dem Formular in PromQL übersetzen, um die Flexibilität und Leistungsfähigkeit von PromQLzu nutzen. Mit der Option In PromQL können Sie komplexe Abfragen konfigurieren.

Die folgende Abfrage prüft beispielsweise den Prozentsatz des verfügbaren Speichers auf einem Host.

sysdig_host_memory_available_bytes / sysdig_host_memory_total_bytes * 100

Schwellenwerte werden separat von der Abfrage konfiguriert, sodass der Benutzer einen Alertschwellenwert und einen Warnungsschwellenwert angeben kann.