• /
  • EnglishEspañolFrançais日本語한국어Português
  • Se connecterDémarrer

Cette traduction automatique est fournie pour votre commodité.

En cas d'incohérence entre la version anglaise et la version traduite, la version anglaise prévaudra. Veuillez visiter cette page pour plus d'informations.

Créer un problème

Intégration du GPU NVIDIA

Notre intégration GPU NVIDIA vous permet de monitorer l'état de vos GPU. Cette intégration utilise notre agent d'infrastructure avec l'intégration Flex, qui nous permet d'accéder à l'utilitaire SMI de NVIDIA.

NVIDIA GPUs dashboard

Après avoir configuré notre intégration GPU NVIDIA, nous vous fournissons un dashboard pour vos métriques GPU.

Lors de l'installation, vous obtiendrez un dashboard prédéfini contenant des mesures GPU cruciales :

  • Utilisation du GPU
  • Nombre d'erreurs ECC
  • Processus de calcul actifs
  • États d'horloge et de performances
  • Température et vitesse du ventilateur
  • Informations dynamiques et statiques sur chaque périphérique pris en charge

Installer l' agent d'infrastructure

Pour capturer des données avec New Relic, installez notre agent d'infrastructure. Notre agent d'infrastructure collecte et ingère des données afin que vous puissiez suivre les performances de vos GPU.

Vous pouvez installer l' agent d'infrastructure de deux manières différentes :

Configurer l'intégration Flex pour les GPU NVIDIA

Flex est fourni avec l'agent New Relic Infrastructure et peut être intégré à NVIDIA SMI, un utilitaire de ligne de commande permettant de monitorer les périphériques GPU NVIDIA.

Important

nvidia-smi est livré préinstallé avec les pilotes d'affichage GPU NVIDIA sur Linux et Windows Server.

Suivez ces étapes pour configurer Flex :

  1. Créez un fichier nommé nvidia-smi-gpu-monitoring.yml dans ce chemin :

    bash
    $
    sudo touch /etc/newrelic-infra/integrations.d/nvidia-smi-gpu-monitoring.yml

    Vous pouvez également télécharger depuis le référentiel git.

  2. Mettre à jour le fichier nvidia-smi-gpu-monitoring.yml avec la configuration d'intégration :

    ---
    integrations:
    - name: nri-flex
    # interval: 30s
    config:
    name: NvidiaSMI
    variable_store:
    metrics:
    "name,driver_version,count,serial,pci.bus_id,pci.domain,pci.bus,\
    pci.device_id,pci.sub_device_id,pcie.link.gen.current,pcie.link.gen.max,\
    pcie.link.width.current,pcie.link.width.max,index,display_mode,display_active,\
    persistence_mode,accounting.mode,accounting.buffer_size,driver_model.current,\
    driver_model.pending,vbios_version,inforom.img,inforom.oem,inforom.ecc,inforom.pwr,\
    gom.current,gom.pending,fan.speed,pstate,clocks_throttle_reasons.supported,\
    clocks_throttle_reasons.gpu_idle,clocks_throttle_reasons.applications_clocks_setting,\
    clocks_throttle_reasons.sw_power_cap,clocks_throttle_reasons.hw_slowdown,clocks_throttle_reasons.hw_thermal_slowdown,\
    clocks_throttle_reasons.hw_power_brake_slowdown,clocks_throttle_reasons.sw_thermal_slowdown,\
    clocks_throttle_reasons.sync_boost,memory.total,memory.used,memory.free,compute_mode,\
    utilization.gpu,utilization.memory,encoder.stats.sessionCount,encoder.stats.averageFps,\
    encoder.stats.averageLatency,ecc.mode.current,ecc.mode.pending,ecc.errors.corrected.volatile.device_memory,\
    ecc.errors.corrected.volatile.dram,ecc.errors.corrected.volatile.register_file,ecc.errors.corrected.volatile.l1_cache,\
    ecc.errors.corrected.volatile.l2_cache,ecc.errors.corrected.volatile.texture_memory,ecc.errors.corrected.volatile.cbu,\
    ecc.errors.corrected.volatile.sram,ecc.errors.corrected.volatile.total,ecc.errors.corrected.aggregate.device_memory,\
    ecc.errors.corrected.aggregate.dram,ecc.errors.corrected.aggregate.register_file,ecc.errors.corrected.aggregate.l1_cache,\
    ecc.errors.corrected.aggregate.l2_cache,ecc.errors.corrected.aggregate.texture_memory,ecc.errors.corrected.aggregate.cbu,\
    ecc.errors.corrected.aggregate.sram,ecc.errors.corrected.aggregate.total,ecc.errors.uncorrected.volatile.device_memory,\
    ecc.errors.uncorrected.volatile.dram,ecc.errors.uncorrected.volatile.register_file,ecc.errors.uncorrected.volatile.l1_cache,\
    ecc.errors.uncorrected.volatile.l2_cache,ecc.errors.uncorrected.volatile.texture_memory,ecc.errors.uncorrected.volatile.cbu,\
    ecc.errors.uncorrected.volatile.sram,ecc.errors.uncorrected.volatile.total,ecc.errors.uncorrected.aggregate.device_memory,\
    ecc.errors.uncorrected.aggregate.dram,ecc.errors.uncorrected.aggregate.register_file,ecc.errors.uncorrected.aggregate.l1_cache,\
    ecc.errors.uncorrected.aggregate.l2_cache,ecc.errors.uncorrected.aggregate.texture_memory,ecc.errors.uncorrected.aggregate.cbu,\
    ecc.errors.uncorrected.aggregate.sram,ecc.errors.uncorrected.aggregate.total,retired_pages.single_bit_ecc.count,\
    retired_pages.double_bit.count,retired_pages.pending,temperature.gpu,temperature.memory,power.management,power.draw,\
    power.limit,enforced.power.limit,power.default_limit,power.min_limit,power.max_limit,clocks.current.graphics,clocks.current.sm,\
    clocks.current.memory,clocks.current.video,clocks.applications.graphics,clocks.applications.memory,\
    clocks.default_applications.graphics,clocks.default_applications.memory,clocks.max.graphics,clocks.max.sm,clocks.max.memory,\
    mig.mode.current,mig.mode.pending"
    apis:
    - name: NvidiaGpu
    commands:
    - run: nvidia-smi --query-gpu=${var:metrics} --format=csv # update this if you have an alternate path
    output: csv
    rename_keys:
    " ": ""
    "\\[MiB\\]": ".MiB"
    "\\[%\\]": ".percent"
    "\\[W\\]": ".watts"
    "\\[MHz\\]": ".MHz"
    value_parser:
    "clocks|power|fan|memory|temp|util|ecc|stats|gom|mig|count|pcie": '\d*\.?\d+'
    '.': '\[N\/A\]|N\/A|Not Active|Disabled|Enabled|Default'

Confirmer que les métriques GPU sont ingérées

La configuration Flex sera automatiquement détectée et exécutée par l'agent d'infrastructure, il n'est pas nécessaire de redémarrer l'agent. Vous pouvez confirmer que les métriques sont ingérées en exécutant cette requête NRQL :

SELECT * FROM NvidiaGpuSample

Monitorer votre application

Vous pouvez utiliser notre modèle dashboard prédéfini pour monitorer vos métriques GPU. Suivez ces étapes :

  1. Allez à one.newrelic.com et cliquez sur Dashboards.

  2. Cliquez sur l'onglet Import dashboard .

  3. Copiez le contenu du fichier (.json) depuis le dashboard du GPU NVIDIA.

  4. Sélectionnez le compte cible où le dashboard doit être importé.

  5. Cliquez sur Import dashboard pour confirmer l'action.

    Votre dashboard NVIDIA GPU Monitoring est considéré comme un dashboard personnalisé et peut être trouvé dans l'UI Dashboards. Pour obtenir des documents sur l'utilisation et la modification du dashboard, consultez notre documentation dashboard .

    Voici une requête NRQL pour afficher toute la télémétrie disponible :

    SELECT * FROM NvidiaGpuSample

Quelle est la prochaine étape ?

Vous pouvez adapter la configuration Flex pour inclure ou exclure des informations disponibles à partir de l'utilitaire NVIDIA SMI.

Pour en savoir plus sur la création de requêtes NRQL et la génération de dashboards, consultez ces documents :

  • Introduction au générateur de requêtes pour créer des requêtes basiques et avancées.
  • Introduction au dashboard pour personnaliser votre dashboard et effectuer différentes actions.
  • Gérez votre dashboard pour ajuster votre mode d'affichage ou pour ajouter plus de contenu à votre dashboard.
Droits d'auteur © 2025 New Relic Inc.

This site is protected by reCAPTCHA and the Google Privacy Policy and Terms of Service apply.