Prenez des décisions en matière de ressources avec vos données

Maintenant que vous comprenez comment identifier les points de défaillance de votre système, il est temps de passer à la couche suivante du processus de dépannage. Disons que vous avez été informé qu’il y a un problème avec l’infrastructure sous-jacente qui prend en charge les applications d’une équipe. En vous appuyant sur les compétences acquises lors de la formation Diagnostiquer les pannes d'applications avec les données de l'hôte, vous apprendrez une manière de comparer les données afin de pouvoir prendre une décision concernant l'allocation des ressources.

Objectifs

Dans ce tutoriel, vous apprendrez à :

Dépanner un hôte d'alerte avec un processeur élevé
Prendre une décision data-driven concernant l'allocation des ressources

Enquêter sur une augmentation soudaine du processeur

Déterminez s'il y a un problème avec vos ressources

Supposons que vous n’ayez aucun contexte supplémentaire sur la nature de la panne. Votre première étape consiste à déterminer si un changement peut être corrélé aux ressources. Commencez par la page récapitulative et évaluez vos données liées aux ressources : votre processeur, votre utilisation de la mémoire et votre utilisation du disque.

A screenshot displaying an infrastructure summary page with high CPU

En utilisant cette capture d'écran comme exemple, vous pouvez en déduire que :

host-tower-portland a un incident d'alerte critique.
D'après le tableau récapitulatif, vous pouvez voir que le processeur fonctionne à chaud à 99,84 %.
Les graphiques métriques vous montrent que ce comportement dure depuis au moins 30 minutes.
Étant donné que ce comportement est inattendu, vous souhaiterez approfondir vos recherches sur cet hôte spécifique.

Corrélez vos données

Après avoir cliqué sur un hôte, une nouvelle page récapitulative apparaît avec des données spécifiques à cet hôte. À ce stade, vous essayez de développer les modèles identifiés à partir de la page de résumé. Voyons si nous pouvons corréler le pourcentage de CPU avec d’autres données spécifiques à host-tower-portland.

Étant donné que nous traitons du pourcentage de processeur, nous souhaitons déterminer si le problème est lié à l’application ou à la machine. Pour ce faire, vous souhaitez vérifier la table Processes running par rapport à la Latest events dans la barre latérale. Cette étape permet de déterminer si un problème survient parce qu’une modification a été apportée directement à la machine ou si un processus épuise des ressources.

Basé sur cette capture d'écran :

L'utilisation du processeur est élevée et stagne à près de 100 %.
Aucun événement n'a été signalé au cours des 30 dernières minutes, soit environ au moment où le changement s'est produit pour la première fois. S'il y avait un rapport d'événement, vous rechercheriez tout changement dans le fichier de configuration de la machine ou vérifieriez si quelqu'un est entré dans la machine pour apporter des modifications directement.
Il y a un processus ruby qui utilise 77,34 % de votre CPU.
Étant donné que vous avez corrélé le pourcentage de CPU avec un processus, vous pouvez conclure qu'une application monopolise vos ressources plutôt que que le problème provienne de l'hôte lui-même.

Déterminez si vous devez allouer plus de ressources à cette application

Un problème lié aux ressources ne signifie pas toujours que la solution consiste à fournir davantage de ressources. Il existe de nombreuses raisons pour lesquelles le CPU est utilisé à un niveau élevé, mais voici les deux principales :

L'application exécute un processus redondant qui provoque un pic de charge du processeur. Si tel est le cas, vous devez contacter l’équipe propriétaire pour optimiser cette application.
De plus en plus d'utilisateurs accèdent à ce composant et ajoutent du stress à votre système. Si tel est le cas, vous devez prévoir davantage de ressources pour répondre à cette charge.
Si nous regardons la page récapitulative de host-tower-portland, nous pouvons identifier quel scénario s’applique à cette situation en corrélant les modèles de séries chronologiques entre différents graphiques. Comparons le trafic réseau aux mesures de votre infrastructure .
Dans ce cas, vous vous attendez à ce que le graphique Network traffic suive une tendance similaire à vos graphiques métriques pour l'utilisation du processeur, l'utilisation de la mémoire, etc.
Si vos ressources sont liées à des problèmes d'application plutôt qu'à la charge, alors votre série chronologique de réseau évoluera de manière ordinaire, c'est-à-dire sans pics ni creux.
Cependant, si la charge est la cause d'une utilisation élevée du processeur, vous remarquerez que les séries chronologiques de votre réseau reflètent les tendances sur vos autres graphiques métriques.
Comparons nos CPU usage et Network traffic:
Si la charge sollicite votre système, votre trafic réseau affichera une augmentation parallèle à vos graphiques métriques.
Vous remarquerez peut-être également une lente diminution du trafic au fil du temps après un pic. Cela est dû au fait que les ressources s’épuisent et que ces processus s’arrêtent. En d’autres termes, si les ressources disponibles ne peuvent pas répondre à la demande, le trafic réseau pourrait être limité et provoquer une diminution constante.
Le trafic réseau présente cependant un comportement cohérent. Le comportement général ne semble pas changer au fil du temps à mesure que les ressources s’épuisent. Au lieu de cela, la série chronologique montre des pics et des creux réguliers.
Cela indique que le problème vient en fait de l'application, plutôt que du fait que l'application a besoin de plus de ressources pour faire face à la charge.
Dans ce instance, vous n’allouerez pas de ressources supplémentaires à l’application. Contactez plutôt l’équipe propriétaire et recommandez-lui d’optimiser le processus Ruby incriminé.

Partager avec l'équipe

Lorsque vous faites des recommandations à d’autres équipes, vous souhaitez que tout le monde consulte les mêmes données. Cela garantit que lorsque des décisions sont prises concernant des modifications potentielles, ces décisions sont basées sur les mêmes données que celles utilisées dans le dépannage.

Dans les étapes précédentes, nous avons appliqué une requête de filtre pour afficher des ensembles spécifiques d'hôtes liés à un problème. Cela met à jour les données de la page récapitulative, que vous pouvez enregistrer pour d'autres équipes.

A screenshot displaying a summary page scoped to a query. An arrow points to the filter bar and to a button that says Saved view.

Déterminez la quantité de données dont l’autre équipe pourrait avoir besoin pour faire son travail. Il y a peut-être des ensembles d'hôtes qui doivent être pris en compte, ou peut-être qu'ils n'ont besoin que d'une seule tranche de données d'exemple.
Créez un filtre qui affiche uniquement les données pertinentes. Par souci de simplicité, la vue enregistrée inclut un hôte du filtre hostname = host-tower-portland. Une autre possibilité est de filtrer par noms d’applications ou peut-être par statut d’alerte.
Nommez la vue, puis cliquez sur Save.
Une fois que vous avez créé une vue de données, il est temps d'enregistrer cette vue afin qu'elle puisse être recherchée par d'autres équipes. Lorsqu'ils dépannent le comportement de leur propre application, ils peuvent trouver la vue en recherchant dans la liste déroulante.

Quelle est la prochaine étape ?

Jusqu’à présent, nous avons expliqué comment utiliser les données d’infrastructure pour résoudre un incident lié aux ressources. Nous avons expliqué comment passer de milliers d'hôtes à un ensemble d'hôtes, puis corréler les données pour prendre une décision. Le document suivant vous montre comment créer des dashboards personnalisés à l'aide de métriques infrastructure .

Étape précédente

Diagnostiquer l'échec de l'application avec les données de l'hôte

Prochaine étape

Créer des dashboards avec des métriques infra

Cette traduction automatique est fournie pour votre commodité.