Intégration du GPU NVIDIA

Notre intégration GPU NVIDIA vous permet de monitorer l'état de vos GPU. Cette intégration utilise notre agent d'infrastructure avec l'intégration Flex, qui nous permet d'accéder à l'utilitaire SMI de NVIDIA.

Après avoir configuré notre intégration GPU NVIDIA, nous vous fournissons un dashboard pour vos métriques GPU.

Lors de l'installation, vous obtiendrez un dashboard prédéfini contenant des mesures GPU cruciales :

Utilisation du GPU
Nombre d'erreurs ECC
Processus de calcul actifs
États d'horloge et de performances
Température et vitesse du ventilateur
Informations dynamiques et statiques sur chaque périphérique pris en charge

Installer l' agent d'infrastructure

Pour capturer des données avec New Relic, installez notre agent d'infrastructure. Notre agent d'infrastructure collecte et ingère des données afin que vous puissiez suivre les performances de vos GPU.

Vous pouvez installer l' agent d'infrastructure de deux manières différentes :

Notre guide d'installation est un outil CLI qui inspecte votre système et installe l'agent d'infrastructure aux côtés de l'agent de monitoring d'application qui fonctionne le mieux pour votre système. Pour en savoir plus sur le fonctionnement de notre guide d'installation, consultez notre aperçu du guide d'installation.
Si vous préférez installer notre agent d'infrastructure manuellement, vous pouvez suivre un tutoriel d'installation manuelle pour Linux, Windows.

Configurer l'intégration Flex pour les GPU NVIDIA

Flex est fourni avec l'agent New Relic Infrastructure et peut être intégré à NVIDIA SMI, un utilitaire de ligne de commande permettant de monitorer les périphériques GPU NVIDIA.

Important

nvidia-smi est livré préinstallé avec les pilotes d'affichage GPU NVIDIA sur Linux et Windows Server.

Suivez ces étapes pour configurer Flex :

Créez un fichier nommé nvidia-smi-gpu-monitoring.yml dans ce chemin :
bash
```
$sudo touch /etc/newrelic-infra/integrations.d/nvidia-smi-gpu-monitoring.yml
```
Vous pouvez également télécharger depuis le référentiel git.

Mettre à jour le fichier nvidia-smi-gpu-monitoring.yml avec la configuration d'intégration :

--- 
  integrations:
    - name: nri-flex
      # interval: 30s
      config:
        name: NvidiaSMI
        variable_store:
          metrics: 
            "name,driver_version,count,serial,pci.bus_id,pci.domain,pci.bus,\
            pci.device_id,pci.sub_device_id,pcie.link.gen.current,pcie.link.gen.max,\
            pcie.link.width.current,pcie.link.width.max,index,display_mode,display_active,\
            persistence_mode,accounting.mode,accounting.buffer_size,driver_model.current,\
            driver_model.pending,vbios_version,inforom.img,inforom.oem,inforom.ecc,inforom.pwr,\
            gom.current,gom.pending,fan.speed,pstate,clocks_throttle_reasons.supported,\
            clocks_throttle_reasons.gpu_idle,clocks_throttle_reasons.applications_clocks_setting,\
            clocks_throttle_reasons.sw_power_cap,clocks_throttle_reasons.hw_slowdown,clocks_throttle_reasons.hw_thermal_slowdown,\
            clocks_throttle_reasons.hw_power_brake_slowdown,clocks_throttle_reasons.sw_thermal_slowdown,\
            clocks_throttle_reasons.sync_boost,memory.total,memory.used,memory.free,compute_mode,\
            utilization.gpu,utilization.memory,encoder.stats.sessionCount,encoder.stats.averageFps,\
            encoder.stats.averageLatency,ecc.mode.current,ecc.mode.pending,ecc.errors.corrected.volatile.device_memory,\
            ecc.errors.corrected.volatile.dram,ecc.errors.corrected.volatile.register_file,ecc.errors.corrected.volatile.l1_cache,\
            ecc.errors.corrected.volatile.l2_cache,ecc.errors.corrected.volatile.texture_memory,ecc.errors.corrected.volatile.cbu,\
            ecc.errors.corrected.volatile.sram,ecc.errors.corrected.volatile.total,ecc.errors.corrected.aggregate.device_memory,\
            ecc.errors.corrected.aggregate.dram,ecc.errors.corrected.aggregate.register_file,ecc.errors.corrected.aggregate.l1_cache,\
            ecc.errors.corrected.aggregate.l2_cache,ecc.errors.corrected.aggregate.texture_memory,ecc.errors.corrected.aggregate.cbu,\
            ecc.errors.corrected.aggregate.sram,ecc.errors.corrected.aggregate.total,ecc.errors.uncorrected.volatile.device_memory,\
            ecc.errors.uncorrected.volatile.dram,ecc.errors.uncorrected.volatile.register_file,ecc.errors.uncorrected.volatile.l1_cache,\
            ecc.errors.uncorrected.volatile.l2_cache,ecc.errors.uncorrected.volatile.texture_memory,ecc.errors.uncorrected.volatile.cbu,\
            ecc.errors.uncorrected.volatile.sram,ecc.errors.uncorrected.volatile.total,ecc.errors.uncorrected.aggregate.device_memory,\
            ecc.errors.uncorrected.aggregate.dram,ecc.errors.uncorrected.aggregate.register_file,ecc.errors.uncorrected.aggregate.l1_cache,\
            ecc.errors.uncorrected.aggregate.l2_cache,ecc.errors.uncorrected.aggregate.texture_memory,ecc.errors.uncorrected.aggregate.cbu,\
            ecc.errors.uncorrected.aggregate.sram,ecc.errors.uncorrected.aggregate.total,retired_pages.single_bit_ecc.count,\
            retired_pages.double_bit.count,retired_pages.pending,temperature.gpu,temperature.memory,power.management,power.draw,\
            power.limit,enforced.power.limit,power.default_limit,power.min_limit,power.max_limit,clocks.current.graphics,clocks.current.sm,\
            clocks.current.memory,clocks.current.video,clocks.applications.graphics,clocks.applications.memory,\
            clocks.default_applications.graphics,clocks.default_applications.memory,clocks.max.graphics,clocks.max.sm,clocks.max.memory,\
            mig.mode.current,mig.mode.pending"
        apis:
          - name: NvidiaGpu
            commands:
              - run: nvidia-smi --query-gpu=${var:metrics} --format=csv # update this if you have an alternate path
                output: csv
            rename_keys:
              " ": ""
              "\\[MiB\\]": ".MiB"
              "\\[%\\]": ".percent"
              "\\[W\\]": ".watts"
              "\\[MHz\\]": ".MHz"
            value_parser:
              "clocks|power|fan|memory|temp|util|ecc|stats|gom|mig|count|pcie": '\d*\.?\d+'
              '.': '\[N\/A\]|N\/A|Not Active|Disabled|Enabled|Default'

Confirmer que les métriques GPU sont ingérées

La configuration Flex sera automatiquement détectée et exécutée par l'agent d'infrastructure, il n'est pas nécessaire de redémarrer l'agent. Vous pouvez confirmer que les métriques sont ingérées en exécutant cette requête NRQL :

SELECT * FROM NvidiaGpuSample

Monitorer votre application

Vous pouvez utiliser notre modèle dashboard prédéfini pour monitorer vos métriques GPU. Suivez ces étapes :

Allez à one.newrelic.com et cliquez sur Dashboards.
Cliquez sur l'onglet Import dashboard .
Copiez le contenu du fichier (.json) depuis le dashboard du GPU NVIDIA.
Sélectionnez le compte cible où le dashboard doit être importé.
Cliquez sur Import dashboard pour confirmer l'action.
Votre dashboard NVIDIA GPU Monitoring est considéré comme un dashboard personnalisé et peut être trouvé dans l'UI Dashboards. Pour obtenir des documents sur l'utilisation et la modification du dashboard, consultez notre documentation dashboard .
Voici une requête NRQL pour afficher toute la télémétrie disponible :
```
SELECT * FROM NvidiaGpuSample
```

Quelle est la prochaine étape ?

Vous pouvez adapter la configuration Flex pour inclure ou exclure des informations disponibles à partir de l'utilitaire NVIDIA SMI.

Pour en savoir plus sur la création de requêtes NRQL et la génération de dashboards, consultez ces documents :

Introduction au générateur de requêtes pour créer des requêtes basiques et avancées.
Introduction au dashboard pour personnaliser votre dashboard et effectuer différentes actions.
Gérez votre dashboard pour ajuster votre mode d'affichage ou pour ajouter plus de contenu à votre dashboard.