Schwellenwertalerts
Sie können IBM Cloud Monitoring Schwellenwert-Alerts (früher Metrik-Alerts genannt) im Alert-Editor mit Hilfe eines Formulars oder PromQL definieren.
Weitere Informationen zum Konfigurieren von Alerts enthält Alert mit dem Alerteditor konfigurieren.
Festlegung der Bedingungen, unter denen ein Schwellenwertalarm ausgelöst wird
Geben Sie im Alerteditor Folgendes im Abschnitt Metrik & Bedingungen an:
- Bereich
- Der Alert wird standardmäßig auf die gesamte Infrastruktur Ihres Teamgeltungsbereichs angewendet. Sie können den Alertbereich jedoch einschränken, indem Sie nach bestimmten Bezeichnungen wie
container_name
oderkube_namespace_name
filtern. - Metrik
- Wählen Sie den zu überwachenden Messwert aus und konfigurieren Sie, wie die Daten zusammengefasst werden sollen. Anschließend können Sie die Aggregationsmethode auswählen, die Ihren Anforderungen am besten entspricht. Wenn Sie beispielsweise die durchschnittliche Latenzzeit im gesamten Cluster verstehen möchten, können Sie die durchschnittliche Aggregation verwenden. Wenn Sie Knoten mit der höchsten Latenzzeit ermitteln möchten, können Sie alternativ die maximale Aggregation verwenden.
- Nach Segment gruppieren
- Durch die Gruppierung von Metriken nach Bezeichnungen wie
container_name
wird für jeden Container ein eindeutiges Segment generiert. Dadurch können Sie schnell erkennen, ob ein bestimmter Container für die Leistungsentfettung verantwortlich ist. - Zeitaggregation
- Die Zeitaggregation einer Warnregel wird auch als Bereich bezeichnet und bestimmt das Zeitfenster, über das die ausgewählte Metrik aggregiert wird. Wenn Sie z. B. die Aggregation
avg
für die Metrikcassandra_read_latency
mit einem bestimmten Bereich auswählen, wird der Durchschnittswert der Metrikcassandra_read_latency
über dieses Zeitfenster berechnet. Dieser Bereich legt fest, wie weit zurück die Metrikwerte für die Zeitaggregation berücksichtigt werden. - Dauer
- Die Dauer legt fest, wie lange eine Alarmbedingung ununterbrochen erfüllt sein muss, bevor ein Alarm ausgelöst wird. So bedeutet beispielsweise eine Dauer von 10m, dass die Bedingung 10 Minuten lang ununterbrochen erfüllt sein muss. Wenn die Alarmbedingung zu irgendeinem Zeitpunkt innerhalb dieses Zeitraums nicht erfüllt wird, wird der 10-Minuten-Timer zurückgesetzt und muss erneut für volle, ununterbrochene 10 Minuten erfüllt werden. Die Einstellung einer längeren Dauer reduziert Fehlalarme, da sie verhindert, dass Alarme durch kurzzeitige Schwellenwertverletzungen ausgelöst werden.
Zeitaggregation und Dauer
Die Zeitaggregation einer Alert-Abfrage definiert den Zeitraum, über den die relevanten metrischen Daten ausgewertet werden. Sie ist nicht zu verwechseln mit der Dauer einer Warnregel, die sich auf die Zeitspanne bezieht, die eine Warnbedingung erfüllt sein muss, bevor sie eine Warnung auslöst.
Schwellenwerte
Definieren Sie den Schwellenwert und den Zeitraum für die Bewertung der Alertbedingung.
Aggregation | Beschreibung |
---|---|
Durchschnitt | Der Durchschnitt der abgerufenen Metrikwerte über den gesamten Zeitraum. |
Summe | Die Summe des Messwerts über den ausgewerteten Zeitraum. |
Maximum | Das Maximum der abgerufenen Metrikwerte über den Zeitraum. |
minimum | Das Minimum der abgerufenen Metrikwerte über den Zeitraum. |
Bilder in Schwellenwert-Warnmeldungen
Schwellenwertalarm-Benachrichtigungen, die an Slack oder per E-Mail weitergeleitet werden, enthalten einen Snapshot der auslösenden Zeitreihendaten. Für Slack-Benachrichtigungskanäle kann die Momentaufnahme in den Benachrichtigungskanaleinstellungen aktiviert bzw. inaktiviert werden. Wenn der Kanal mit Bei Auflösung benachrichtigenkonfiguriert ist, wird in der Benachrichtigung auch eine Momentaufnahme der Zeitreihendaten bereitgestellt, die den Alert auflösen.
Mehrere Schwellenwerte konfigurieren
Zusätzlich zu einem Alertschwellenwert kann ein Warnungsschwellenwert konfiguriert werden. Warnungsschwellenwerte und Alertschwellenwerte können verschiedenen Benachrichtigungskanälen zugeordnet sein. Im folgenden Beispiel möchte ein Benutzer möglicherweise eine Warnung und eine Alertbenachrichtigung an Slack senden, aber auch das Bereitschaftsdienst-Team auf Pagerduty setzen, wenn ein Alertschwellenwert erreicht wird.
Wenn sowohl Warnungs-als auch Alertschwellenwerte demselben Benachrichtigungskanal zugeordnet sind, ignoriert eine Metrik, die den Alertschwellenwert sofort überschreitet, den Warnungsschwellenwert und löst nur den Alertschwellenwert aus.
Benachrichtigung, wenn keine Metrikdaten vorhanden sind
Wenn eine Metrik die Berichterstellung stoppt, können Alerts, die diese Metriken verwenden, nicht ausgewertet werden. Um sicherzustellen, dass Sie wissen, wann dies geschieht, können Sie Alerts konfigurieren, die bei Keine Daten benachrichtigt werden, indem Sie die Option Keine Daten im Abschnitt Einstellungen so konfigurieren, dass sie entweder ignoriert oder benachrichtigt wird.
Alertkonfiguration in PromQL übersetzen
Sie können automatisch aus dem Formular in PromQL übersetzen, um die Flexibilität und Leistungsfähigkeit von PromQLzu nutzen. Mit der Option In PromQL können Sie komplexe Abfragen konfigurieren.
Die folgende Abfrage prüft beispielsweise den Prozentsatz des verfügbaren Speichers auf einem Host.
sysdig_host_memory_available_bytes / sysdig_host_memory_total_bytes * 100
Schwellenwerte werden separat von der Abfrage konfiguriert, sodass der Benutzer einen Alertschwellenwert und einen Warnungsschwellenwert angeben kann.