Gestiona la calidad de tus alertas

Cuando los equipos reciben demasiadas alertas o demasiadas falsas alarmas, comienza a producirse la fatiga de alertas. A medida que cualquiera de los factores aumenta, esa fatiga comienza a tener consecuencias graves y negativas. Los responsables de responder a eventos de alerta que están abrumados se acostumbran a las falsas alertas y priorizan las que son más fáciles de resolver rápidamente en lugar de los problemas más graves. Peor aún, a menudo comienzan simplemente a cerrar eventos de alerta no resueltos para mantenerse dentro de los objetivos de tiempo de respuesta. Esto significa que las alertas reales se pierden en el ruido, mientras que los tiempos de respuesta a los eventos de alerta y la frecuencia de interrupciones graves aumentan.

Para solucionar la fatiga de alertas y evitar que ocurra en el futuro, debe mejorar la calidad de sus alertas. Adoptar una política de gestión de calidad de alertas (AQM) se enfoca en reducir el número de eventos de alerta molestos para que se enfoque solo en con un verdadero impacto en el negocio. Esto reduce la fatiga de alertas y garantiza que usted y su equipo centren su atención en los lugares correctos en los momentos oportunos.

Eres un buen candidato para AQM si:

Tienes demasiadas alertas.
Tienes alerta que permanece abierta por largos periodos de tiempo.
Tienes muchas alertas que no son relevantes.
Sus clientes descubren sus problemas antes que sus herramientas de monitoreo.

Sugerencia

¿Quieres probar un enfoque de aprendizaje práctico antes de comenzar a implementar esto en tu cuenta? Consulta el curso de gestión de calidad de alerta.

¿Por qué utilizar alerta gestión de calidad?

Al adoptar prácticas basadas en la gestión de calidad de alertas, reducirá el tiempo de respuesta y aumentará el conocimiento de los eventos críticos. A medida que mejore la relación señal-ruido de sus alertas, reducirá la confusión y podrá identificar y aislar rápidamente la causa raíz de sus problemas. El objetivo es reducir las alertas menos valiosas y crear formas más sencillas de identificar cuándo ocurren eventos de alerta más valiosos. Esto da como resultado:

Mayor tiempo de actividad y disponibilidad.
Reducción del tiempo medio de resolución (MTTR).
Disminución del volumen de alerta.
La capacidad de identificar fácilmente alertas que no son valiosas, para que puedas convertirlas en valiosas o eliminarlas.

Usando indicadores de rendimiento clave

Usar los indicadores clave de rendimiento (KPI) correctos le ayuda a encontrar las alertas más ruidosas y menos valiosas para que pueda mejorar su valor o eliminarlas. Utilizará el proceso AQM para recopilar y medir el volumen de eventos de alerta y los KPI de interacción; luego, los usará para identificar tendencias y solucionar incidencias que generan problemas graves. A continuación, encontrará información sobre todos los KPI, así como una consulta NRQL para cada uno que le ayudará a monitorearlos desde cualquier lugar de la UI de New Relic.

Volumen de eventos de alerta

Debe tratar los eventos de alerta (con o sin alertas) como una cola de tareas. Al igual que una cola, el número de alertas siempre debe ser lo más cercano a cero posible. Cada evento de alerta debe desencadenar una acción de investigación o correctiva para resolver la condición. Si una alerta no genera algún tipo de acción, entonces debería cuestionar el valor de la condición de alerta.

En particular, si observa eventos de alerta específicos que se activan con frecuencia, debe preguntarse si se encuentra en un estado constante de impacto significativo o si simplemente tiene un gran volumen de ruido. Los KPI de volumen de eventos de alerta le ayudan a responder esas preguntas y medir el progreso hacia un estado saludable de alertas de alta calidad.

Este es el número de eventos de alerta generados durante un período de tiempo. Por lo general, debe comparar las semanas actual y anterior.

Goal: Reduzca el número de eventos de alerta de bajo valor y molestos.

Best practices:

Asegúrese de que la configuración de las condiciones esté destinada a detectar el impacto real en el negocio.
Asegúrese de que la configuración de condiciones detecte un comportamiento anormal.
Use la función de detalles de eventos de alerta Acknowledge para ayudar a medir el valor de las alertas. Consulte el KPI de porcentaje de reconocimiento de eventos de alerta.
Informar los KPI de AQM a todas las partes interesadas.
```
FROM NrAiIncident SELECT count(*) AS 'Incident Count' WHERE event = 'open' AND priority = 'critical' SINCE 1 WEEK AGO COMPARE WITH 1 WEEK AGO
```

Esta es la suma total de minutos que todos los eventos de alerta han acumulado durante un período de tiempo. Por lo general, debe comparar las semanas actual y anterior.

Goal: Reduzca el total de minutos acumulados de eventos de alerta.

Best practices:

No cierre manualmente los eventos de alerta, ya que hacerlo puede distorsionar la precisión de este KPI.
Elimine las alertas que no resulten en ninguna acción correctiva por parte de los destinatarios.
Mejore los KPI percent investigated y mean-time-to-investigate comunicando su importancia para mejorar la detección y el tiempo de respuesta.

Informar los KPI de AQM a todas las partes interesadas.

FROM NrAiIncident SELECT sum(durationSeconds)/60 AS 'Incident Minutes' WHERE event = 'close' AND priority = 'critical' SINCE 1 WEEK AGO COMPARE WITH 1 WEEK AGO

Esta es la duración promedio de los eventos de alerta dentro del período de tiempo medido. Desea que este número sea lo más bajo posible.

Goal: Reducir el MTTC

Best practices:

No cierre manualmente los eventos de alerta, ya que hacerlo puede distorsionar la precisión de este KPI.
Mejorar las habilidades de ingeniería de confiabilidad.

Informar los KPI de AQM a todas las partes interesadas.

FROM NrAiIncident SELECT average(durationSeconds/60) AS 'Incident MTTC (minutes)' WHERE event = 'close' AND priority = 'critical' SINCE 1 WEEK AGO COMPARE WITH 1 WEEK AGO

Este es el porcentaje de eventos de alerta con una duración total menor a cinco minutos. Esto puede indicar que un evento de alerta cambia de estado con demasiada frecuencia, lo que oculta la causa y la gravedad del evento de alerta. Este estado se conoce como alert event flapping.

Goal: Minimizar el porcentaje de eventos de alerta de corta duración.

Best practices:

Asegúrese de que las condiciones detecten anomalías legítimas con un impacto significativo en su sistema.

Comprender la administración a nivel de servicio.

FROM NrAiIncident SELECT percentage(count(*), WHERE durationSeconds <= 5*60) AS '% Under 5min' WHERE event = 'close' AND priority = 'critical' SINCE 1 WEEK AGO COMPARE WITH 1 WEEK AGO

Participación del usuario

Debe medir el valor de un evento de alerta por la cantidad de atención que recibe. La cantidad de interacción que recibe una alerta individual es una medida directa de su valor. Una mayor interacción implica una alerta valiosa, mientras que una menor (o nula) interacción implica que una alerta puede ser simplemente ruidosa y debe modificarse o deshabilitarse.

Existe una diferencia significativa entre medir el momento en que se toma conocimiento de un evento de alerta y reconocer cuándo comienza la actividad de resolución. Si utiliza una integración con alertas de New Relic, asegúrese de que el evento Acknowledge enviado a New Relic se active cuando comience la actividad de resolución, no cuando el evento de alerta se envíe a la herramienta externa de gestión de eventos de alertas.

Esto identifica el porcentaje de eventos de alerta con un indicador de reconocimiento true. Debería comparar las semanas actual y anterior.

Goal: Aumente el porcentaje de interacción con eventos de alerta.

Best practices:

Asegúrese de que su equipo de DevOps sepa cuándo es apropiado reconocer una alerta de evento, si corresponde.
Reconocimiento de alerta de Gamify para impulsar el uso.

Desalentar los ejercicios de reconocimiento masivo.

FROM NrAiIssue SELECT filter(count(*), WHERE event='acknowledge')/filter(count(*), WHERE event='create')*100 AS '% Investigated' WHERE priority='CRITICAL' SINCE 1 WEEK AGO COMPARE WITH 1 WEEK AGO

Esto identifica el tiempo promedio que le toma reconocer un evento de alerta. Por lo general, debe comparar las semanas actual y anterior.

Goal: Reducir el tiempo medio de investigación.

Best practices:

Trabaje en fomentar la confianza de los responsables de responder a eventos de alerta en las alertas.
Asegúrese de que se reconozcan las alertas valiosas.

Incentivar a los equipos de respuesta para que respondan rápidamente a la alerta.

FROM NrAiIssue SELECT average(acknowledgeTime - activateTime) / 60000 AS 'Incident MTTI (minutes)' WHERE event = 'acknowledge' SINCE 1 WEEK AGO COMPARE WITH 1 WEEK AGO

¿Que sigue?

Una vez que implemente el proceso AQM del documento anterior, verá reducciones significativas en el volumen de alerta mientras mantiene la confiabilidad y la estabilidad. Sus KPI de AQM pueden proporcionar información precisa sobre estas mejoras cuando sigue las mejores prácticas enumeradas anteriormente.

Una vez que haya terminado de implementar AQM, también puede considerar mejorar y administrar otros aspectos de su plataforma, como:

Paso anterior

Aprende cómo mejorar tu stack con alerta

Te ofrecemos esta traducción automática para facilitar la lectura.

Sugerencia

¿Por qué utilizar alerta gestión de calidad?

Usando indicadores de rendimiento clave

Volumen de eventos de alerta

KPI de recuento de eventos de alerta

KPI de duración acumulada de eventos de alerta

KPI de tiempo medio de cierre (MTTC)

Porcentaje de KPI de menos de 5 minutos

Participación del usuario

KPI porcentual reconocido

Tiempo medio para investigar (MTTI) KPI

¿Que sigue?

Paso anterior

Te ofrecemos esta traducción automática para facilitar la lectura.

Gestiona la calidad de tus alertas

Sugerencia

¿Por qué utilizar alerta gestión de calidad? .css-21sua1{background:none;border:none;width:0;padding:0;}

Usando indicadores de rendimiento clave

Volumen de eventos de alerta

KPI de duración acumulada de eventos de alerta

KPI de tiempo medio de cierre (MTTC)

Porcentaje de KPI de menos de 5 minutos

Participación del usuario

KPI porcentual reconocido

Tiempo medio para investigar (MTTI) KPI

¿Que sigue?

Paso anterior

¿Por qué utilizar alerta gestión de calidad?