Optimisation des erreurs : améliorez votre suivi des erreurs

Ce guide vous montre comment optimiser vos erreurs afin d'améliorer le taux d'erreur, la détection des erreurs et l'expérience client. Cela fait partie de notre série sur la maturité de l'observabilité.

Présentation

Le suivi des erreurs est la pratique consistant à capturer les erreurs d'application et le taux d'erreur afin que vous puissiez résoudre les problèmes affectant votre expérience client de votre logiciel.

Le suivi de l'IA de ce guide a pour but de permettre à un client ou à une équipe New Relic de :

Calibrez la façon dont les erreurs sont comprises par New Relic, de sorte que les mesures liées aux erreurs reflètent uniquement les erreurs qui sont significatives pour vous
Réduire l'incidence des erreurs au fil du temps

Résultat souhaité

Améliorez l'expérience client et la fiabilité en réduisant le taux d'erreur d'application et le délai moyen de résolution (MTTR).

indicateurs de performances clés

Indicateurs clés de performance de l'entreprise

Réduire les erreurs rencontrées par le client améliore la fiabilité. les organisations qui améliorent la fiabilité bénéficient d’un taux de conversion plus élevé (taux d’achèvement du parcours utilisateur) et d’un engagement utilisateur plus élevé. Cela permet à l'organisation de se rapprocher de ses objectifs de revenus (commerciaux) ou d'impact social (à but non lucratif).

Le taux de conversion est souvent utilisé pour indiquer le taux d'achats ou de clics publicitaires. Dans ce cas, le taux de conversion est utilisé pour mesurer les parcours utilisateurs réalisés. Les parcours utilisateur terminés incluent des éléments tels que la création d'un ticket, la soumission d'un formulaire et le visionnage d'une vidéo, ainsi que le suivi d'une publicité sur un site ou la réalisation d'un achat en ligne.

Goal: Augmentez le ratio de parcours utilisateur terminés par rapport aux sessions utilisateur.

Best practices

Les erreurs se produisent à la fois dans les applications frontales et backend , mais sont généralement mesurées sur le front-end. Les entonnoirs de requête sont populaires pour mesurer les conversions, mais vous pouvez le faire encore plus simplement en comptant le nombre de conversions sur le nombre total de sessions pour une période donnée.

Si vous fournissez un service API et que des taux de conversion s'appliquent à votre entreprise, vous pouvez les mesurer en comparant le nombre d'appels au service final qui reçoit l'appel au nombre d'appels au premier service. Par exemple:

FROM Transaction SELECT 
   (FROM Transaction SELECT count(*) WHERE request.uri = '/api/v1/lastStep') /
   (FROM Transaction SELECT count(*) WHERE request.uri = '/api/v1/firstStep') AS conversionRate

Pour plus d'exemples d'amélioration des conversions, consultez le guide d'analyse du bas de l'échelle, qui explique comment améliorer le taux de conversion en commençant par les dernières étapes du parcours utilisateur.

Mesurez l'augmentation ou la diminution de l'engagement en comptant les pages vues.

Goal: Augmenter le nombre de pages vues

Best practices

Les erreurs se produisent à la fois dans les applications frontales et backend , mais sont généralement mesurées sur le front-end. Mesurez l'impact de l'amélioration des erreurs sur l'engagement des utilisateurs en suivant les pages vues pour les applications frontales liées aux domaines dans lesquels vous apportez des améliorations.

Votre requête NRQL ressemblera à ceci :

FROM PageView SELECT count(*) WHERE appName IN ('CustomerApp1', 'CustomerApp2')

Si vous fournissez une API en tant que service et qu'elle est pertinente pour votre entreprise, vous pouvez suivre l'équivalent des pages vues en suivant le nombre de transactions :

FROM Transaction SELECT count(*) WHERE appName = 'apiService'

Mesurez l'augmentation ou la diminution de l'engagement en comptant les pages vues.

Goal: Augmentez le nombre d'utilisateurs accédant à votre site

Best practices

Les erreurs se produisent à la fois dans les applications frontales et backend , mais sont généralement mesurées sur le front-end. Mesurez l’impact de l’amélioration des erreurs sur l’engagement des utilisateurs en suivant le nombre d’utilisateurs accédant à votre site sur une période donnée. Si vous n'avez pas ajouté d'instrumentation personnalisée pour suivre l'utilisateur, vous pouvez suivre les sessions à la place.

Votre requête NRQL ressemblera à ceci :

FROM PageView SELECT uniqueCount(userId) WHERE appName IN ('CustomerApp1', 'CustomerApp2')

FROM PageView SELECT uniqueCount(session) WHERE appName IN ('CustomerApp1', 'CustomerApp2')

Si vous fournissez une API en tant que service, capturez les identifiants des clients et que cela est pertinent pour votre entreprise, vous pouvez suivre l'équivalent de l'utilisateur en suivant les clients dans les transactions :

FROM Transaction uniqueCount(customerId) WHERE appName = 'apiService'

Les KPI commerciaux ci-dessus fonctionnent sur l’hypothèse que vous soutenez votre utilisateur en lui fournissant une application frontale. Si vous assistez vos clients via l'API, il peut être possible d'adapter les KPI ci-dessus au type d'entité Transaction. Certaines organisations qui fournissent des API en tant que service utilisent des KPI opérationnels comme ceux ci-dessous pour promouvoir la qualité de leur offre.

Indicateurs de performance opérationnels

Le taux d'erreur est le rapport entre les erreurs et requests.

Une erreur peut être un code de réponse HTTP 300+, une exception non gérée, un crash mobile ou un événement configuré par un membre de votre équipe comme une erreur.

Goal: Réduisez le taux d’erreur dans les applications que vous gérez.

Best practices

Il s’agit du principal indicateur de performance clé que vous utiliserez pour suivre vos progrès en matière d’amélioration du suivi des erreurs. Les mesures visant à améliorer les taux d’erreur comprennent le filtrage des erreurs sans conséquence ainsi que la résolution des erreurs ayant un impact.

Le temps moyen de clôture mesure le temps écoulé entre le moment où une alerte vous informe d'un problème et celui où le problème est fermé, juste après sa résolution. Ce KPI est suivi dans le cadre de la gestion de la qualité des alertes

Goal: Réduisez le temps moyen de résolution des problèmes en réduisant le taux d'erreur.

Best practices

Créez une solide pratique en matière d'erreurs afin que, lorsqu'un problème survient, vous puissiez le détecter plus rapidement :

Que le problème soit lié ou non à une augmentation des erreurs
Quelle erreur est responsable du problème, si le problème est causé par une erreur
Le guide de gestion de la qualité Alert vous montre comment suivre cet indicateur de performance clé.

Prérequis

Installation et configuration requises

Assurez-vous que nos solutions monitoring des applications mobiles , , monitoring sans serveur ou OpenTelemetry reçoivent vos erreurs.
Cartes sources à jour pour les applications Web
Symbolisation à jour pour les applications mobiles

Établir l'état actuel

Créez une workload pour vos applications
Créez un niveau de service pour votre workload

Créez une workload pour vos applications

Définissez la liste des applications et des services pour lesquels vous cherchez à optimiser les erreurs. L'équipe chargée du processus d'optimisation des erreurs doit avoir la pleine responsabilité et le contrôle de ces applications et services. Une fois que vous avez décidé, configurez une charge de travail pour ces entités.

la charge de travail est un groupe d'entités (applications, instances, etc.) dont une équipe spécifique est responsable. Ils vous permettent de consulter les données uniquement pour l’entité sur laquelle vous pouvez faire quelque chose. Nous baserons la majeure partie de notre travail à l'avenir sur la workload que vous avez définie ici.

Il ne faut que quelques minutes pour configurer une charge de travail. Consultez les instructions sur les charges de travail.

Si vous êtes déjà familiarisé avec la charge de travail et préférez diviser vos applications et services en plusieurs charges de travail, vous le pouvez. Suivez simplement les étapes ci-dessous pour chaque workload.

Créez un niveau de service pour votre workload

niveau de service vous permet de configurer et de visualiser facilement les objectifs de niveau de service (SLO) pour un groupe d'entités donné. L'utilisation du niveau de service est une façon de monitorer et de communiquer le succès de votre projet de gestion des erreurs.

Depuis votre workload, accédez à l’onglet Service levels. Créer un niveau de service qui mesure le taux d'erreur pour chaque entité de la workload. Ceci est configuré à l’étape 2 dans l’interface utilisateur du niveau de service. Pour chaque niveau de service, utilisez les clauses WHERE pour filtrer les bonnes requests ou les erreurs qui ne doivent pas être prises en compte.

Créer un niveau de service pour les pannes mobiles

Pour l’étape 2, choisissez MobileSession comme source d’événement valide. Choisissez MobileCrash comme source de mauvaises réponses.
Pour l’étape 4, ajoutez une tag au niveau de service. Vous pouvez utiliser la tag par défaut category:success.
Créer un niveau de service pour les erreurs de demande mobile
Pour l’étape 2, choisissez MobileRequest comme source d’événement valide. Choisissez MobileRequestError comme source de mauvaises réponses.
Pour l’étape 4, ajoutez une tag au niveau de service. Vous pouvez utiliser la tag par défaut category:success.

Créer un taux d'erreur niveau de service pour la fonction AWS Lambda intégrée à notre monitoring sans serveur:

Pour l’étape 1, sélectionnez Lambda function comme type d’entité
Pour l'étape 2, sélectionnez AWSLambdaInvocation pour un événement valide et AwsLambdaInvocationError pour les mauvaises réponses
Pour l’étape 4, ajoutez une tag au niveau de service. Vous pouvez utiliser la tagpar défaut category:success
Actuellement, le niveau de service ne prend en charge que le taux d'erreur pour la fonction AWS Lambda à l'aide du monitoring New Relic sans serveur pour AWS Lambda. Vous pouvez capturer le taux d'erreur en dehors du niveau de service en utilisant la requête suivante :
```
SELECT sum(provider.errors.Sum) / sum(provider.invocations.Sum) * 100 
FROM ServerlessSample
```

Pour l’étape 1, sélectionnez Service - OpenTelemetry.
Pour l'événement valide de l'étape 2, utilisez le type d'entité Span pour les bons types d'événement. Ajoutez ce qui suit à la clause WHERE : (span.kind LIKE 'server' OR span.kind LIKE 'consumer' OR kind LIKE 'server' OR kind LIKE 'consumer')
Pour l'événement non valide de l'étape 2, utilisez le type d'entité Span et l'option Repeat WHERE clause . Ajoutez ce qui suit à la clause WHERE pour détecter les mauvaises réponses : otel.status_code = 'ERROR'
Pour l’étape 4, ajoutez une tag au niveau de service. Vous pouvez utiliser la tag par défaut category:success.

Utilisez le niveau de service pour suivre vos progrès par rapport au taux d'erreur actuel

En utilisant le processus documenté ci-dessus, vous avez créé un niveau de service basé sur votre taux d'erreur actuel.

La colonne SLO vous montre le taux d'erreur cible que vous avez sélectionné à l'aide d'une base de référence.
Le mode d'affichage opérationnel vous montre les performances récentes par rapport à votre objectif.
Le mode d'affichage Période par période vous montre les performances par rapport à votre objectif sur une période plus longue.
Vous pouvez mettre à jour le taux d'erreur cible au fur et à mesure que des améliorations sont apportées.

Processus d'amélioration

Identifier les erreurs sans conséquence
Supprimez les erreurs sans conséquence de votre taux d'erreur
Configurer des alertes de taux d'erreur
Établir une liste de héros en erreur
Trier les erreurs à l'aide de la boîte de réception des erreurs
Erreurs de lien vers JIRA
Erreurs de lien vers Slack
Utiliser CodeStream

Identifier les erreurs sans conséquence

Explorez vos erreurs de la manière qui vous convient le mieux. Vous pouvez le faire en utilisant :

Vues prêtes à l'emploi pour APM, monitoring des applications mobiles, erreurs JavaScript, monitoring sans serveur et OpenTelemetry
Erreurs Boîte de réception filtrée en fonction de votre workload
Types de données NRQL tels que TransactionError, JavaScriptError, MobileRequestError, AwsLambdaInvocationError, Span

Supprimez les erreurs sans conséquence de votre taux d'erreur

Vous pouvez supprimer les erreurs qui n'ont pas d'importance de deux manières :

Empêchez leur ingestion à l'aide de la configuration (APM uniquement) ou à l'aide de règles de suppression. Cette approche ne fonctionne que pour les erreurs dont vous êtes certain qu'elles n'ont pas besoin d'être capturées. L’avantage supplémentaire de cette approche est la réduction de l’ingestion d’erreurs bruyantes.
Utilisez NRQL pour filtrer les erreurs des calculs de niveau de service. Faites-le en ajoutant un filtre de mauvaises réponses à la clause WHERE. Assurez-vous de redéfinir le niveau de service si cela améliore considérablement le taux d’erreur. Cela améliorera la précision des alertes d’erreur.

Configurer des alertes de taux d'erreur

Passez en revue chacun des niveaux de service configurés dans Créer un niveau de service pour votre workload et créez une alerte pour avertir l'équipe lorsque le taux d'erreur augmente au-delà d'un taux acceptable.

Établir une liste de héros en erreur

Les alertes vous permettront de savoir si vous respectez les niveaux actuels de performances en matière d'erreur, mais ne vous aideront pas à les améliorer. Pour améliorer le sentiment des clients, créez un processus où les erreurs sont examinées quotidiennement par un membre de votre équipe. Le héros de l'erreur devrait :

Concentrez-vous d’abord sur les erreurs qui se produisent au-dessus de la ligne de flottaison. Pour un processus de révision quotidien, cela signifie se concentrer sur les erreurs qui se sont produites uniquement au cours des dernières 24 heures.
Trier les erreurs à l'aide de la boîte de réception des erreurs

Trier les erreurs à l'aide de la boîte de réception des erreurs

La boîte de réception des erreurs est un endroit unique pour détecter, trier et agir de manière proactive sur toutes les erreurs avant qu'elles n'affectent les clients. Les erreurs similaires seront regroupées pour éviter la duplication du travail et vous permettre de hiérarchiser les erreurs par nombre d'occurrences.

Lorsque vous accédez à la boîte de réception des erreurs, assurez-vous de sélectionner votre workload afin de ne voir que les erreurs pertinentes pour votre équipe.

Prévoyez un moment régulier pour parcourir la boîte de réception des erreurs en équipe. Pour commencer, une fréquence quotidienne ou plusieurs fois par semaine est logique, car vous aurez de nombreux groupes d'erreurs à parcourir. Plus tard, une fréquence hebdomadaire ou bimensuelle peut être plus appropriée.

Parcourez les erreurs une par une en cliquant sur l'écran des détails des erreurs lorsque cela est nécessaire pour obtenir plus d'informations telles que la trace, les logs, etc. Cela indiquera soit la cause de l’erreur, soit un point de départ pour une enquête plus approfondie.

Après une brève discussion, vous pourrez peut-être marquer le groupe d’erreurs comme l’un des suivants :

Ignorer : à utiliser lorsque l’erreur n’est pas problématique. Cela masquera le groupe d’erreurs de la vue de la boîte de réception à partir de ce moment.
Résolu : à utiliser lorsque l’erreur était le résultat d’un problème connu qui a maintenant été résolu. Cela supprimera le groupe d’erreurs de la liste, sauf si cela se reproduit. Si cela se reproduit, il faudra repenser le correctif mis en place précédemment.

Remarque : ignorer et/ou résoudre les erreurs via la boîte de réception des erreurs ne les empêchera pas d'être comptabilisées dans le taux d'erreur métrique.

Si aucun des statuts ci-dessus ne convient, attribuez l’erreur au membre de l’équipe approprié pour une enquête plus approfondie et une résolution. Ce membre de l’équipe peut mener une enquête plus approfondie à son rythme, en mettant à jour les notes du groupe d’erreurs avec sa progression et/ou en demandant de l’aide aux autres membres de l’équipe via la section notes.

Lors de la prochaine réunion de tri, vous pourrez revoir ces groupes d'erreurs pour voir s'ils peuvent désormais être marqués comme résolus. Au fil du temps, vous devriez commencer à voir apparaître moins de nouveaux groupes d’erreurs et une évolution positive de vos KPI.

Erreurs de lien vers JIRA

À mesure que vous rencontrez des erreurs plus spécifiques ou plus complexes, vous pourriez avoir besoin de demander de l’aide à d’autres équipes. Lier la boîte de réception des erreurs à Jira peut aider à résoudre ce problème. Connectez votre boîte de réception d'erreurs à Jira pour vous permettre de créer facilement des tickets connectés à des groupes d'erreurs. Vous pouvez contrôler les informations envoyées à Jira via les modèles Jira.

Erreurs de lien vers Slack

À mesure que la vitesse des erreurs arrivant dans la boîte de réception des erreurs diminue, une session d'équipe régulière peut ne plus être une bonne utilisation du temps. Une alternative consiste à lier la boîte de réception des erreurs à Slack et soit a) désigner une personne tournante pour monitorer le canal et résoudre/ignorer/attribuer des groupes d'erreurs au fur et à mesure qu'ils arrivent, soit b) permettre à l'équipe de répondre de manière proactive aux groupes d'erreurs.

Utiliser CodeStream

Bon nombre de vos groupes d’erreurs nécessiteront des modifications de code pour être résolus. Connectez CodeStream à votre compte New Relic pour ouvrir le code incriminé directement dans votre IDE afin d'enquêter directement sur le code. Vous pouvez également laisser des notes et des commentaires sur des lignes de code spécifiques pour que les développeurs puissent les examiner et vice versa.

New Relic avec CodeStream vous offre plus de contexte sur vos groupes d'erreurs, comme la possibilité de voir les numéros de version ou de valider les SHA. De plus, l'utilisation de la boîte de réception des erreurs comme emplacement centralisé pour identifier, discuter et rectifier les problèmes de code vous permet de répondre efficacement aux problèmes de code et d'éviter de dupliquer le travail.

Réalisation de la valeur

Révisez les taux d’erreur chaque semaine à mesure que vous progressez dans la pratique. À mesure que le taux d'erreur diminue, vous devriez constater un délai moyen de résolution (MTTR) plus rapide et une satisfaction accrue des clients.

Cette traduction automatique est fournie pour votre commodité.

Optimisation des erreurs : améliorez votre suivi des erreurs

Présentation

Résultat souhaité

indicateurs de performances clés

Indicateurs clés de performance de l'entreprise

taux de conversion

Nombre de pages vues

nombre d'utilisateurs

Indicateurs de performance opérationnels

Taux d'erreur

Temps moyen de fermeture des erreurs

Prérequis

Installation et configuration requises

Établir l'état actuel

Créez une workload pour vos applications

Créez un niveau de service pour votre workload

Créer un taux d'erreur de niveau de service pour chaque service applicatif

Créer un taux d'erreur de niveau de service pour chaque application de navigateur

Créer un taux d'erreur niveau de service pour chaque application mobile

Créer un taux d'erreur de niveau de service pour chaque application sans serveur

Créer un taux d'erreur de niveau de service pour chaque application ouverte de télémétrie

Utilisez le niveau de service pour suivre vos progrès par rapport au taux d'erreur actuel

Processus d'amélioration

Identifier les erreurs sans conséquence

Supprimez les erreurs sans conséquence de votre taux d'erreur

Configurer des alertes de taux d'erreur

Établir une liste de héros en erreur

Trier les erreurs à l'aide de la boîte de réception des erreurs

Erreurs de lien vers JIRA

Erreurs de lien vers Slack

Utiliser CodeStream

Réalisation de la valeur

Cette traduction automatique est fournie pour votre commodité.

Optimisation des erreurs : améliorez votre suivi des erreurs

Présentation .css-21sua1{background:none;border:none;width:0;padding:0;}

Résultat souhaité

indicateurs de performances clés

Indicateurs clés de performance de l'entreprise

Nombre de pages vues

nombre d'utilisateurs

Indicateurs de performance opérationnels

Taux d'erreur

Temps moyen de fermeture des erreurs

Prérequis

Installation et configuration requises

Établir l'état actuel

Créez une workload pour vos applications

Créez un niveau de service pour votre workload

Créer un taux d'erreur de niveau de service pour chaque service applicatif

Créer un taux d'erreur de niveau de service pour chaque application de navigateur

Créer un taux d'erreur niveau de service pour chaque application mobile

Créer un taux d'erreur de niveau de service pour chaque application sans serveur

Créer un taux d'erreur de niveau de service pour chaque application ouverte de télémétrie

Utilisez le niveau de service pour suivre vos progrès par rapport au taux d'erreur actuel

Processus d'amélioration

Identifier les erreurs sans conséquence

Supprimez les erreurs sans conséquence de votre taux d'erreur

Configurer des alertes de taux d'erreur

Établir une liste de héros en erreur

Trier les erreurs à l'aide de la boîte de réception des erreurs

Erreurs de lien vers JIRA

Erreurs de lien vers Slack

Utiliser CodeStream

Réalisation de la valeur

Présentation