• /
  • EnglishEspañolFrançais日本語한국어Português
  • Se connecterDémarrer

Cette traduction automatique est fournie pour votre commodité.

En cas d'incohérence entre la version anglaise et la version traduite, la version anglaise prévaudra. Veuillez visiter cette page pour plus d'informations.

Créer un problème

Intégration de NVIDIA DCGM

Notre intégration NVIDIA DCGM vous aide à monitoring l'état des GPU. Cette intégration s'appuie sur notre agent d'infrastructure et sur l'intégration d'écriture à distance Prometheus, qui est parfaitement intégrée à l'utilitaire SMI de NVIDIA. Il vous fournit un dashboard prédéfini contenant des mesures DCGM cruciales, notamment l'utilisation du GPU, le nombre d'erreurs XID, les états d'horloge et de performances, la température et la consommation d'énergie.

NVIDIA DCGM dashboard

Après avoir configuré notre intégration NVIDIA DCGM, nous vous fournissons un dashboard pour vos métriques DCGM.

Installer l' agent d'infrastructure

Pour intégrer des données dans New Relic, installez notre agent d'infrastructure. Notre agent d'infrastructure collecte et ingère des données afin que vous puissiez suivre les performances de votre DCGM.

Vous pouvez installer l' agent d'infrastructure de deux manières différentes :

Configurer l'exportateur DCGM

  1. Dans votre terminal, clonez le référentiel dcgm-exporter :

    bash
    $
    git clone https://github.com/NVIDIA/dcgm-exporter
  2. Dans le référentiel cloné, accédez au répertoire dcgm-exporter :

    bash
    $
    cd dcgm-exporter
  3. Installer les binaires nécessaires :

    bash
    $
    make binary
    bash
    $
    sudo make install
  4. Démarrer le dcgm-exporter:

    bash
    $
    dcgm-exporter &
  5. Consultez les détails de vos métriques DCGM :

    bash
    $
    curl localhost:9400/metrics

configuration NVIDIA-DCGM sur Prometheus

Prometheus est un outil de monitoring et d'alerte open source qui peut être utilisé pour monitorer les GPU NVIDIA à l'aide de l'exportateur NVIDIA-DCGM. Pour configurer Prometheus pour monitorer les métriques DCGM, suivez ces étapes :

  1. Visitez la page de téléchargementPrometheus pour trouver la dernière sortie.
  2. Sélectionnez la version appropriée à votre système d'exploitation et à votre architecture. Pour Linux, vous choisirez probablement la version linux-amd64. Copiez le lien de téléchargement du fichier tarball (fichier .tar.gz ).
  3. Une fois Prometheus téléchargé, décompressez le fichier tar téléchargé :
    bash
    $
    tar -xvzf <filename.tar.gz>
  4. Accédez au dossier Prometheus téléchargé :
    bash
    $
    cd /DOWNLOADED-FOLDER/
  5. Ouvrez votre fichier prometheus.yml et ajoutez les lignes suivantes :
    ---
    scrape_configs:
    - job_name: NVIDI
    static_configs:
    - targets:['localhost:9400']
  6. Démarrer Prometheus:
    bash
    $
    ./prometheus --config.file=prometheus.yml

Installer l'agent d'écriture à distance Prometheus pour NVIDIA-DCGM

Après avoir Prometheus configuration, vous devez envoyer les métriques NVIDIA DCGM à Prometheus. Plus tard, pour intégrer les métriques Prometheus à New Relic, vous pouvez exploiter l’agent d’écriture à distance Prometheus. Suivez simplement le lanceur de configuration d’écriture à distancePrometheus dans l’ UI.

Redémarrez l'agent New Relic Infrastructure

Avant de pouvoir commencer à lire vos données, utilisez les instructions de notre documentation suragent d'infrastructure pour redémarrer votre agent d'infrastructure.

bash
$
sudo systemctl restart newrelic-infra.service

Consultez vos métriques DCGM dans New Relic

Une fois la configuration ci-dessus terminée, vous pouvez afficher vos métriques à l'aide de notre modèle dashboard prédéfini nommé nvidia-dcgm. Pour accéder à ce dashboard:

  1. Allez à one.newrelic.com > + Integrations & Agents.
  2. Cliquez sur l'onglet Dashboards .
  3. Dans le champ de recherche, tapez "nvidia-dcgm".
  4. Sélectionnez-le et cliquez sur Install.

Pour intrumenter le quickstart nvidia-dcgm et voir les métriques et les alertes, vous pouvez également suivre notre page quickstart Nvidia-DCGM en cliquant sur le bouton Install now .

Voici quelques exemples de requêtes :

Example: afficher le décompte de la température du GPU de l'appareil

SELECT latest(DCGM_FI_DEV_GPU_TEMP) FROM Metric WHERE metricName LIKE 'DCGM_FI_DEV_GPU_TEMP' TIMESERIES

Quelle est la prochaine étape ?

Pour en savoir plus sur la création de requêtes NRQL et la génération de dashboards, consultez ces documents :

  • Introduction au générateur de requêtes pour créer des requêtes basiques et avancées.
  • Introduction au dashboard pour personnaliser votre dashboard et effectuer différentes actions.
  • Gérez votre dashboard pour ajuster votre mode d'affichage ou pour ajouter plus de contenu à votre dashboard.
Droits d'auteur © 2025 New Relic Inc.

This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.