Notre intégration NVIDIA DCGM vous aide à monitoring l'état des GPU. Cette intégration s'appuie sur notre agent d'infrastructure et sur l'intégration d'écriture à distance Prometheus, qui est parfaitement intégrée à l'utilitaire SMI de NVIDIA. Il vous fournit un dashboard prédéfini contenant des mesures DCGM cruciales, notamment l'utilisation du GPU, le nombre d'erreurs XID, les états d'horloge et de performances, la température et la consommation d'énergie.

Après avoir configuré notre intégration NVIDIA DCGM, nous vous fournissons un dashboard pour vos métriques DCGM.
Installer l' agent d'infrastructure
Pour intégrer des données dans New Relic, installez notre agent d'infrastructure. Notre agent d'infrastructure collecte et ingère des données afin que vous puissiez suivre les performances de votre DCGM.
Vous pouvez installer l' agent d'infrastructure de deux manières différentes :
- Notre guide d'installation est un outil CLI qui inspecte votre système et installe l'agent d'infrastructure aux côtés de l'agent de monitoring d'application qui fonctionne le mieux pour votre système. Pour en savoir plus sur le fonctionnement de notre guide d'installation, consultez notre aperçu du guide d'installation.
- Si vous préférez installer notre agent d'infrastructure manuellement, vous pouvez suivre un tutoriel d'installation manuelle pour Linux, Windows.
Configurer l'exportateur DCGM
Dans votre terminal, clonez le référentiel
dcgm-exporter
:bash$git clone https://github.com/NVIDIA/dcgm-exporterDans le référentiel cloné, accédez au répertoire
dcgm-exporter
:bash$cd dcgm-exporterInstaller les binaires nécessaires :
bash$make binarybash$sudo make installDémarrer le
dcgm-exporter
:bash$dcgm-exporter &Consultez les détails de vos métriques DCGM :
bash$curl localhost:9400/metrics
configuration NVIDIA-DCGM sur Prometheus
Prometheus est un outil de monitoring et d'alerte open source qui peut être utilisé pour monitorer les GPU NVIDIA à l'aide de l'exportateur NVIDIA-DCGM. Pour configurer Prometheus pour monitorer les métriques DCGM, suivez ces étapes :
- Visitez la page de téléchargementPrometheus pour trouver la dernière sortie.
- Sélectionnez la version appropriée à votre système d'exploitation et à votre architecture. Pour Linux, vous choisirez probablement la version linux-amd64. Copiez le lien de téléchargement du fichier tarball (fichier
.tar.gz
). - Une fois Prometheus téléchargé, décompressez le fichier tar téléchargé :bash$tar -xvzf <filename.tar.gz>
- Accédez au dossier Prometheus téléchargé :bash$cd /DOWNLOADED-FOLDER/
- Ouvrez votre fichier
prometheus.yml
et ajoutez les lignes suivantes :---scrape_configs:- job_name: NVIDIstatic_configs:- targets:['localhost:9400'] - Démarrer Prometheus:bash$./prometheus --config.file=prometheus.yml
Installer l'agent d'écriture à distance Prometheus pour NVIDIA-DCGM
Après avoir Prometheus configuration, vous devez envoyer les métriques NVIDIA DCGM à Prometheus. Plus tard, pour intégrer les métriques Prometheus à New Relic, vous pouvez exploiter l’agent d’écriture à distance Prometheus. Suivez simplement le lanceur de configuration d’écriture à distancePrometheus dans l’ UI.
Redémarrez l'agent New Relic Infrastructure
Avant de pouvoir commencer à lire vos données, utilisez les instructions de notre documentation suragent d'infrastructure pour redémarrer votre agent d'infrastructure.
$sudo systemctl restart newrelic-infra.service
Consultez vos métriques DCGM dans New Relic
Une fois la configuration ci-dessus terminée, vous pouvez afficher vos métriques à l'aide de notre modèle dashboard prédéfini nommé nvidia-dcgm. Pour accéder à ce dashboard:
- Allez à one.newrelic.com > + Integrations & Agents.
- Cliquez sur l'onglet Dashboards .
- Dans le champ de recherche, tapez "nvidia-dcgm".
- Sélectionnez-le et cliquez sur Install.
Pour intrumenter le quickstart nvidia-dcgm
et voir les métriques et les alertes, vous pouvez également suivre notre page quickstart Nvidia-DCGM en cliquant sur le bouton Install now .
Voici quelques exemples de requêtes :
Example: afficher le décompte de la température du GPU de l'appareil
SELECT latest(DCGM_FI_DEV_GPU_TEMP) FROM Metric WHERE metricName LIKE 'DCGM_FI_DEV_GPU_TEMP' TIMESERIES
Quelle est la prochaine étape ?
Pour en savoir plus sur la création de requêtes NRQL et la génération de dashboards, consultez ces documents :
- Introduction au générateur de requêtes pour créer des requêtes basiques et avancées.
- Introduction au dashboard pour personnaliser votre dashboard et effectuer différentes actions.
- Gérez votre dashboard pour ajuster votre mode d'affichage ou pour ajouter plus de contenu à votre dashboard.