Diagnostiquer l'échec de l'application avec les données de l'hôte

Lorsque votre système est entièrement instrumenté, vous pouvez corréler les données entre l’infrastructure de votre système et les applications prises en charge par votre infrastructure. Il est cependant probable que vous ayez des milliers d’hôtes sans visage allouant des ressources à diverses applications. Il se peut que vous ne disposiez pas du contexte complet de ce qui se passe et à quel endroit, ce qui rend la recherche de données pertinentes difficile. Comment trier toutes vos données pour trouver les causes liées à l’infrastructure des applications défaillantes ?

Objectifs

Ce document vous guide dans la recherche de données pertinentes dans l'interface utilisateur de l'infrastructure. Vous serez:

Filtrez vos données infrastructure par attribut
Identifier des hôtes et des applications spécifiques sans contexte supplémentaire
Utilisez le sélecteur de temps pour savoir quand un changement s'est produit

Explorez les données de votre hôte pour trouver la cause d'une panne

Identifier les hôtes défaillants

Si vous ne savez pas par où commencer, nous vous recommandons de définir dans un premier temps la portée de vos hôtes en fonction de la gravité des alertes. En utilisant la page de résumé, vous pouvez voir que trois incidents d'alerte critiques se produisent dans votre système.

Vous pouvez utiliser la barre de filtre pour afficher les données uniquement sur ces trois critiques d'alerte. Dans ce cas, votre requête serait alertSeverity = 'CRITICAL', ce qui réduit vos données agrégées de 83 hôtes à trois.

A screenshot identifying the two areas in the UI that indicate alert severity. An arrow points to the Alerts tile and a second arrow points to the filter bar.

Si vous n'avez pas encore configuré , vous pouvez toujours trier le tableau récapitulatif par métriques d'hôtes. Par exemple, disons que vous n'avez aucune indication que les hôtes sont en panne, mais que vous avez quand même été informé d'un problème.

A screenshot that shows the summary table sorted by descending CPU usage. An arrow points to the column title where you can toggle the sort action by ascending or descending.

Cliquez sur la colonne nom dans le tableau récapitulatif. Vous pouvez trier par ordre croissant ou décroissant.
Dans la capture d'écran, nous avons trié les hôtes par utilisation du processeur, ce qui a placé host-tower-portland en haut avec 99,84 % du processeur.
Répétez le même processus pour l’utilisation de la mémoire, l’utilisation du stockage, etc. si nécessaire. Répétez jusqu’à ce que vous ayez trouvé un modèle de comportement anormal.
Lorsque vous avez le temps, pensez à créer des alertes pour tout seuil critique.

Filtrer par nom d'application

Une fois que vous avez identifié un hôte lié à l'incident, vous pouvez cliquer pour afficher uniquement les données concernant cet hôte. Dans ce scénario, nous avons choisi apache-svr01. Puisque nous essayons de résoudre un problème lié à l’application, nous commençons par la carte des services sur la page de l’hôte. Cette carte vous montre quelles applications dépendent de l'hôte choisi.

A screenshot displaying a summary page with data scoped to the individual host, named apache-svr01. An arrow points to the service map on the right side of the UI.

À partir de la vue apache-svr01 , nous pouvons voir que deux applications dépendent de cet hôte. On est en alerte.

A screenshot displaying a service map. This service map shows two apps. One app named 'Orders team' is alerting in the critical.

Dans ce cas, l’application Orders team est l’application défaillante.

Revenez à la page de résumé de l’infrastructure afin de pouvoir mettre à jour votre requête. Nous souhaitons évaluer tous les hôtes liés à cette application même s'ils ne sont pas encore en alerte. L'affichage de l'hôte problématique dans le contexte de son ensemble de partenaires améliore votre compréhension de la cause de l'échec de l'application. Par instance, peut-être que les autres hôtes s'approchent d'un seuil, ou peut-être que vous n'avez pas créé d'alerte pour ces autres hôtes.

Ajustez la barre de filtre pour afficher tous les hôtes liés à l'application Orders team . Votre requête devrait maintenant être apmApplicationNames = Orders team.

A screenshot with an updated view of the hosts page. Instead of showing a table of alerting hosts, it now displays host data that serves the app Orders team

Ce filtre a élargi le rayon de l'incident au-delà de votre hôte apache_svr01 initial, mais a néanmoins limité vos données à un ensemble pertinent. À partir de là, vous pouvez commencer à analyser plus en profondeur les limitations de ressources qui affectent les performances.

Étant donné que seuls quelques-uns de ces hôtes émettent une alerte, vous pouvez exclure un problème potentiel de base de données, qui affecterait tous les hôtes.
Au lieu de cela, vous pouvez choisir d'approfondir vos recherches dans les onglets Système, Réseau, Processus, Stockage ou Conteneur Docker . Le prochain document de cette série explique comment comparer et corréler le comportement des données.

Ajustez le sélecteur d'intervalle de temps pour savoir quand un changement s'est produit pour la première fois

Le réglage du sélecteur d'intervalle de temps vous permet de visualiser l'évolution de vos données au fil du temps. Cette action vous permet de suivre le moment où un changement s'est produit pour la première fois. Regardons ces graphiques de métriques basculés entre il y a 3 heures et il y a 6 heures.

A screenshot displaying two metrics graphs and tiles from the past 6 hours.

Votre série chronologique à 6 heures n'affiche pas d'augmentation évidente de l'utilisation du disque. Basculé sur un paramètre de 3 heures, vous pouvez voir approximativement quand le comportement a commencé à changer. Vos graphiques métriques vous donnent un indice visuel lorsqu'un pic ou une chute se produit.
S'il y a eu une augmentation inattendue de la charge, la tuile Events affichera soit beaucoup, soit trop peu d'événements attendus.
La tuile Alerts affiche le nombre d'hôtes qui sont actuellement en alerte avec un seuil critique ou d'avertissement. Une augmentation constante des alertes au fil du temps peut indiquer à quel moment un changement a aggravé le comportement de l'incident.
Les tuiles et les graphiques de métriques peuvent vous aider à trianguler l'heure approximative d'un incident. Cela est particulièrement utile si la cause d’un incident est due à une mise à jour d’un fournisseur externe ou à un déploiement d’une autre équipe. Si tel est le cas, votre prochaine étape pour creuser plus profondément changerait.

Quelle est la prochaine étape ?

Nous avons présenté comment localiser les applications défaillantes en évaluant vos données d’infrastructure. En commençant par la page de résumé, vous pouvez avoir un aperçu des performances de vos hôtes au fil du temps et identifier les hôtes qui prennent en charge les applications défaillantes.

Mais comment utiliser vos données d’infrastructure pour prendre une décision sur l’allocation des ressources ? Le document suivant explique comment vous pouvez approfondir un incident plus spécifique, comme le dépannage d'un processeur élevé.

Étape précédente

Installez l'agent d'infrastructure.

Étape suivante

Prenez des décisions en matière de ressources avec vos données