Skip to content

Commit

Permalink
added monitor alert rules
Browse files Browse the repository at this point in the history
  • Loading branch information
KarineValenca authored and eabili0 committed Jun 1, 2020
1 parent 0b06f1e commit ce7ff7f
Showing 1 changed file with 113 additions and 2 deletions.
115 changes: 113 additions & 2 deletions alert_rules/alert-rules.yml
Original file line number Diff line number Diff line change
Expand Up @@ -5,6 +5,117 @@ groups:
expr: dependency_up < 1
for: 2m
annotations:
app: "{{ $labels.prsn }}"
description: A dependência {{$labels.name}} do serviço {{$labels.prsn}} não está respondendo.
summary: Alerta para caso uma dependência passe mais de 2 minutos sem resposta
summary: Alerta para caso uma dependência passe mais de 2 minutos sem resposta

- name: suddenly_high_latency
rules:
- record: request_seconds_latency
expr:
sum by (addr, prsn, method, status, type) (request_seconds_sum:irate)
/
sum by (addr, prsn, method, status, type) (request_seconds_count:irate)

- record: request_seconds_latency:avg_max
expr:
avg_over_time(
max_over_time(
avg_over_time(
(sum by (addr, prsn, method, status, type) (request_seconds_sum:irate)
/
sum by (addr, prsn, method, status, type) (request_seconds_count:irate))
[1m:])
[20m:])
[1h:])


- alert: request_seconds_count_latency_increase_10_percent
expr:
(
( requests_seconds_latency * 100)
/
( request_seconds_latency:avg_max * 100)
) >= 1.1
for: 5m
labels:
severity: minor
type_signal: latency
annotations:
description: O recurso no endereço {{$labels.addr}} do serviço {{$labels.prsn}} está com um aumento da latência em 10%.
summary: Alerta para as requisições que, com base na média dos máximos histórico de uma hora, tenha um aumento no tempo de resposta em 10% por mais de cinco minutos.

- alert: request_seconds_count_latency_increase_10_percent
expr:
(
( requests_seconds_latency * 100)
/
( request_seconds_latency:avg_max * 100)
) >= 1.1
for: 5m
labels:
severity: warning
type_signal: latency
annotations:
description: O recurso no endereço {{$labels.addr}} do serviço {{$labels.prsn}} está com um aumento da latência em 10%.
summary: Alerta para as requisições que, com base na média dos máximos histórico de uma hora, tenha um aumento no tempo de resposta em 10% por mais de cinco minutos.

- alert: request_seconds_count_latency_increase_20_percent
expr:
(
( requests_seconds_latency * 100)
/
( request_seconds_latency:avg_max * 100)
) >= 1.2
for: 5m
labels:
severity: minor
type_signal: latency
annotations:
description: O recurso no endereço {{$labels.addr}} do serviço {{$labels.prsn}} está com um aumento da latência em 20%.
summary: Alerta para as requisições que, com base na média dos máximos histórico de uma hora, tenha um aumento no tempo de resposta em 20% por mais de cinco minutos.

- alert: request_seconds_count_latency_increase_50_percent
expr:
(
( requests_seconds_latency * 100)
/
( request_seconds_latency:avg_max * 100)
) >= 1.5
for: 5m
labels:
severity: normal
type_signal: latency
annotations:
description: O recurso no endereço {{$labels.addr}} do serviço {{$labels.prsn}} está com um aumento da latência em 50%.
summary: Alerta para as requisições que, com base na média dos máximos histórico de uma hora, tenha um aumento no tempo de resposta em 50% por mais de cinco minutos.

- alert: request_seconds_count_latency_increase_90_percent
expr:
(
( requests_seconds_latency * 100)
/
( request_seconds_latency:avg_max * 100)
) >= 1.9
for: 5m
labels:
severity: major
type_signal: latency
annotations:
description: O recurso no endereço {{$labels.addr}} do serviço {{$labels.prsn}} está com um aumento da latência em 90%.
summary: Alerta para as requisições que, com base na média dos máximos histórico de uma hora, tenha um aumento no tempo de resposta em 90% por mais de cinco minutos.

- alert: request_seconds_count_latency_increase_100_percent
expr:
(
( requests_seconds_latency * 100)
/
( request_seconds_latency:avg_max * 100)
) >= 2.0
for: 5m
labels:
severity: critical
type_signal: latency
annotations:
description: O recurso no endereço {{$labels.addr}} do serviço {{$labels.prsn}} está com um aumento da latência em 100%.
summary: Alerta para as requisições que, com base na média dos máximos histórico de uma hora, tenha um aumento no tempo de resposta em 100% por mais de cinco minutos.

0 comments on commit ce7ff7f

Please sign in to comment.