Cuando los equipos reciben demasiadas alertas o demasiadas falsas alarmas, comienza a producirse la fatiga de alertas. A medida que cualquiera de los factores aumenta, esa fatiga comienza a tener consecuencias graves y negativas. Los responsables de responder a eventos de alerta que están abrumados se acostumbran a las falsas alertas y priorizan las que son más fáciles de resolver rápidamente en lugar de los problemas más graves. Peor aún, a menudo comienzan simplemente a cerrar eventos de alerta no resueltos para mantenerse dentro de los objetivos de tiempo de respuesta. Esto significa que las alertas reales se pierden en el ruido, mientras que los tiempos de respuesta a los eventos de alerta y la frecuencia de interrupciones graves aumentan.
Para solucionar la fatiga de alertas y evitar que ocurra en el futuro, debe mejorar la calidad de sus alertas. Adoptar una política de gestión de calidad de alertas (AQM) se enfoca en reducir el número de eventos de alerta molestos para que se enfoque solo en con un verdadero impacto en el negocio. Esto reduce la fatiga de alertas y garantiza que usted y su equipo centren su atención en los lugares correctos en los momentos oportunos.
Eres un buen candidato para AQM si:
- Tienes demasiadas alertas.
- Tienes alerta que permanece abierta por largos periodos de tiempo.
- Tienes muchas alertas que no son relevantes.
- Sus clientes descubren sus problemas antes que sus herramientas de monitoreo.
Sugerencia
¿Quieres probar un enfoque de aprendizaje práctico antes de comenzar a implementar esto en tu cuenta? Consulta el curso de gestión de calidad de alerta.
¿Por qué utilizar alerta gestión de calidad?
Al adoptar prácticas basadas en la gestión de calidad de alertas, reducirá el tiempo de respuesta y aumentará el conocimiento de los eventos críticos. A medida que mejore la relación señal-ruido de sus alertas, reducirá la confusión y podrá identificar y aislar rápidamente la causa raíz de sus problemas. El objetivo es reducir las alertas menos valiosas y crear formas más sencillas de identificar cuándo ocurren eventos de alerta más valiosos. Esto da como resultado:
- Mayor tiempo de actividad y disponibilidad.
- Reducción del tiempo medio de resolución (MTTR).
- Disminución del volumen de alerta.
- La capacidad de identificar fácilmente alertas que no son valiosas, para que puedas convertirlas en valiosas o eliminarlas.
Usando indicadores de rendimiento clave
Usar los indicadores clave de rendimiento (KPI) correctos le ayuda a encontrar las alertas más ruidosas y menos valiosas para que pueda mejorar su valor o eliminarlas. Utilizará el proceso AQM para recopilar y medir el volumen de eventos de alerta y los KPI de interacción; luego, los usará para identificar tendencias y solucionar incidencias que generan problemas graves. A continuación, encontrará información sobre todos los KPI, así como una consulta NRQL para cada uno que le ayudará a monitorearlos desde cualquier lugar de la UI de New Relic.
Volumen de eventos de alerta
Debe tratar los eventos de alerta (con o sin alertas) como una cola de tareas. Al igual que una cola, el número de alertas siempre debe ser lo más cercano a cero posible. Cada evento de alerta debe desencadenar una acción de investigación o correctiva para resolver la condición. Si una alerta no genera algún tipo de acción, entonces debería cuestionar el valor de la condición de alerta.
En particular, si observa eventos de alerta específicos que se activan con frecuencia, debe preguntarse si se encuentra en un estado constante de impacto significativo o si simplemente tiene un gran volumen de ruido. Los KPI de volumen de eventos de alerta le ayudan a responder esas preguntas y medir el progreso hacia un estado saludable de alertas de alta calidad.
Participación del usuario
Debe medir el valor de un evento de alerta por la cantidad de atención que recibe. La cantidad de interacción que recibe una alerta individual es una medida directa de su valor. Una mayor interacción implica una alerta valiosa, mientras que una menor (o nula) interacción implica que una alerta puede ser simplemente ruidosa y debe modificarse o deshabilitarse.
Existe una diferencia significativa entre medir el momento en que se toma conocimiento de un evento de alerta y reconocer cuándo comienza la actividad de resolución. Si utiliza una integración con alertas de New Relic, asegúrese de que el evento Acknowledge enviado a New Relic se active cuando comience la actividad de resolución, no cuando el evento de alerta se envíe a la herramienta externa de gestión de eventos de alertas.
¿Que sigue?
Una vez que implemente el proceso AQM del documento anterior, verá reducciones significativas en el volumen de alerta mientras mantiene la confiabilidad y la estabilidad. Sus KPI de AQM pueden proporcionar información precisa sobre estas mejoras cuando sigue las mejores prácticas enumeradas anteriormente.
Una vez que haya terminado de implementar AQM, también puede considerar mejorar y administrar otros aspectos de su plataforma, como: