• /
  • EnglishEspañolFrançais日本語한국어Português
  • Se connecterDémarrer

Cette traduction automatique est fournie pour votre commodité.

En cas d'incohérence entre la version anglaise et la version traduite, la version anglaise prévaudra. Veuillez visiter cette page pour plus d'informations.

Créer un problème

Gérez la qualité de vos alertes

Lorsque les équipes reçoivent trop d’alertes ou trop de fausses alarmes, la fatigue due aux alertes auxiliaires commence à se produire. À mesure que l’un ou l’autre de ces facteurs augmente, cette fatigue commence à avoir des conséquences graves et négatives. Les intervenants incident s'habituent aux fausses alertes et privilégient celles qui sont plus faciles à résoudre rapidement plutôt que les problèmes plus graves. Pire encore, ils commencent souvent par simplement fermer les incidents non résolus pour rester dans le temps de réponse cible. Cela signifie que les alertes réelles se perdent dans le bruit tandis que les délais de réponse aux incidents et les pannes graves augmentent.

Pour remédier à la fatigue due aux alertes auxiliaires et éviter qu'elle ne se reproduise à l'avenir, vous devez améliorer la qualité de vos alertes. L’adoption d’une politique de gestion de la qualité des alertes (AQM) vise à réduire le nombre d’incidents gênants afin de vous concentrer uniquement sur ayant un véritable impact sur l’entreprise. Cela réduit la fatigue due aux alertes auxiliaires et garantit que vous et votre équipe concentrez votre attention sur les bons endroits au bon moment.

Vous êtes un bon candidat pour AQM si :

  • Vous avez trop d'alertes.
  • Vous avez des alertes qui restent ouvertes pendant de longues périodes.
  • Vous avez beaucoup d'alertes qui ne sont pas pertinentes.
  • Vos clients découvrent vos problèmes avant vos outils monitoring .

Conseil

Vous souhaitez essayer une approche d’apprentissage pratique avant de commencer à mettre en œuvre cela dans votre compte ? Découvrez le laboratoire de gestion de la qualité des alertes.

Pourquoi utiliser la gestion de la qualité des alertes ?

En adoptant des pratiques basées sur la gestion de la qualité des alertes, vous diminuerez les temps de réponse et augmenterez la sensibilisation aux événements critiques. À mesure que vous améliorez votre rapport signal/bruit d’alerte, vous réduirez la confusion et serez en mesure d’identifier et d’isoler rapidement la cause première de vos problèmes. L’objectif est de réduire les alertes moins précieuses tout en créant des moyens plus simples d’identifier quand des incidents plus précieux se produisent. Cela donne :

  • Augmentation du temps de disponibilité et de disponibilité.
  • Délai moyen de résolution (MTTR) réduit (MTTR).
  • Volume d'alerte diminué.
  • La possibilité d'identifier facilement les alertes qui ne sont pas utiles, afin que vous puissiez soit les rendre utiles, soit les supprimer.

Utilisation des indicateurs de performances clés

Utiliser les bons indicateurs de performances clés (KPI) vous aide à trouver les alertes les plus bruyantes et les moins précieuses afin de pouvoir améliorer leur valeur ou les supprimer. Vous utiliserez le processus AQM pour collecter et mesurer le volume incident et les indicateurs clés de performance d'engagement, puis les utiliserez pour identifier les tendances afin de résoudre les problèmes qui créent de graves problèmes. Ci-dessous, vous trouverez des informations sur tous les KPI, ainsi qu'une requête NRQL pour chacun d'eux pour vous aider à les monitorer depuis n'importe où dans l'interface utilisateur de New Relic.

volume d'incidents

Vous devez traiter un incident (avec ou sans alertes) comme une file d’attente de tâches. Tout comme une file d’attente, le nombre d’alertes doit toujours être aussi proche de zéro que possible. Chaque incident doit déclencher une enquête ou une action corrective pour résoudre la situation. Si une alerte n’entraîne aucune sorte d’action, vous devez alors remettre en question la valeur de la condition d’alerte.

En particulier, si vous voyez des incidents spécifiques qui sont fréquemment déclenchés, vous devez vous demander si vous êtes dans un état constant d'impact significatif ou si vous avez simplement un volume de bruit important. Les indicateurs clés de performance du volume incident vous aident à répondre à ces questions et à mesurer les progrès vers un état sain d’alerte de haute qualité.

engagement des utilisateurs

Vous devriez mesurer la valeur d’un incident par la quantité d’attention qu’il reçoit. Le niveau d’engagement qu’une alerte individuelle reçoit est une mesure directe de sa valeur. Un engagement plus important implique une alerte précieuse, tandis qu'un engagement moindre (ou nul) implique qu'une alerte peut simplement être bruyante et doit être modifiée ou désactivée.

Il existe une différence significative entre mesurer le moment de la prise de conscience d’un incident et reconnaître le début de l’activité de résolution. Si vous utilisez une intégration avec les alertes New Relic, assurez-vous que l'événement Acknowledge envoyé à New Relic se déclenche lorsque l'activité de résolution commence, et non lorsque l'incident est envoyé à l'outil de gestion incident externe.

Quelle est la prochaine étape ?

Une fois que vous aurez implémenté le processus AQM du document précédent, vous constaterez des réductions significatives du volume d'alertes tout en maintenant la fiabilité et la stabilité. Vos KPI AQM peuvent fournir des informations précises sur ces améliorations lorsque vous suivez les bonnes pratiques énumérées ci-dessus.

Une fois que vous avez terminé la mise en œuvre d'AQM, vous pouvez également envisager d'améliorer et de gérer d'autres aspects de votre plateforme, tels que :

Étape précédente

Découvrez comment améliorer votre stack avec des alertes

Droits d'auteur © 2025 New Relic Inc.

This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.