Notre intégration Ray monitore les performances de votre Ray, vous aidant à diagnostiquer et à optimiser le cluster Ray, les tâches ML telles que le prétraitement des données, la formation distribuée, le réglage des hyperparamètres, l'apprentissage par renforcement et la mise en service du modèle et la mise à l'échelle des applications Python . Notre intégration Ray utilise notre agent infrastructure et NRI-Prometheus vous offre un dashboard prédéfini avec vos métriques Ray les plus importantes.

Après avoir configuré l'intégration avec New Relic, visualisez vos données dans un dashboard comme celui-ci, dès la sortie de la boîte.
Installer l' agent d'infrastructure
Pour utiliser l’intégration Ray, vous devez d’abord installer l’agent d’infrastructure sur le même hôte. L'agent infrastructure monitore l'hôte lui-même, tandis que l'intégration Ray étend votre monitoring avec des données spécifiques au cluster Ray.
Installer l'intégration Prometheus
Téléchargez la dernière sortie Prometheus depuis la page de téléchargementPrometheus . Sélectionnez la version appropriée à votre système d'exploitation et à votre architecture. Pour Linux, vous choisirez probablement la version linux-amd64. Copiez le lien de téléchargement du fichier tarball (fichier
.tar.gz
).Une fois Prometheus téléchargé, extrayez le fichier tar de téléchargement :
bash$tar -xvzf <filename.tar.gz>Accédez au dossier Prometheus extrait et exécutez la commande ci-dessous pour démarrer le service Prometheus :
bash$cd /DOWNLOADED-FOLDER/bash$./prometheus --config.file=/tmp/ray/session_latest/metrics/prometheus/prometheus.ymlLorsque Prometheus démarre, il fonctionne sur le port 9090. Accédez à l'interface Web Prometheus , sélectionnez
Status
et cliquez sur la cible souhaitée pour afficher les URL du point de terminaison Ray métriques, comme indiqué ci-dessous :http://YOUR_DOMAIN:64415/metrics, http://YOUR_DOMAIN:44217/metrics, http://YOUR_DOMAIN:44227/metrics
Configure nri-prometheus
Créez un fichier nommé
nri-prometheus-config.yml
dans le chemin suivant :bash$/etc/newrelic-infra/integrations.dAjoutez le snippet suivant à votre fichier
nri-prometheus-config.yml
qui permet à l’agent de capturer les données Ray :integrations:- name: nri-prometheusconfig:standalone: false# Defaults to true. When standalone is set to `false`, `nri-prometheus` requires an infrastructure agent to send data.emitters: infra-sdk# When running with infrastructure agent emitters will have to include infra-sdkcluster_name: Ray_Metrics# Match the name of your cluster with the name seen in New Relic.targets:- description: Ray_Metricsurls: ["http://<YOUR_HOST_IP>:64747/metrics", "http://<YOUR_HOST_IP>:44217/metrics", "http://<YOUR_HOST_IP>:44227/metrics"]# tls_config:# ca_file_path: "/etc/etcd/etcd-client-ca.crt"# cert_file_path: "/etc/etcd/etcd-client.crt"# key_file_path: "/etc/etcd/etcd-client.key"verbose: false# Defaults to false. This determines whether or not the integration should run in verbose mode.audit: false# Defaults to false and does not include verbose mode. Audit mode logs the uncompressed data sent to New Relic and can lead to a high log volume.# scrape_timeout: "YOUR_TIMEOUT_DURATION"# `scrape_timeout` is not a mandatory configuration and defaults to 30s. The HTTP client timeout when fetching data from endpoints.scrape_duration: "5s"# worker_threads: 4# `worker_threads` is not a mandatory configuration and defaults to `4` for clusters with more than 400 endpoints. Slowly increase the worker thread until scrape time falls between the desired `scrape_duration`. Note: Increasing this value too much results in huge memory consumption if too many metrics are scraped at once.insecure_skip_verify: false# Defaults to false. Determins if the integration should skip TLS verification or not.timeout: 10s
Log de bord de la transmission de Ray vers New Relic
Vous pouvez utiliser notre fonction de transfert de logpour transférer les logs Ray vers New Relic.
Modifiez le fichier de log nommé
logging.yml
situé au chemin suivant :bash$cd /etc/newrelic-infra/logging.d/Ajoutez le script suivant au fichier
logging.yml
:- name: dashboard.logfile: /tmp/ray/session_latest/logs/dashboard.logattributes:logtype: ray_dashboard_logs- name: monitor.logfile: /tmp/ray/session_latest/logs/monitor.logattributes:logtype: ray_monitor_logs- name: log_monitor.logfile: /tmp/ray/session_latest/logs/log_monitor.logattributes:logtype: ray_log_monitor_logs
Redémarrer l' agent d'infrastructure
Utilisez les instructions de notre documentation sur l’agent d’infrastructure pour redémarrer votre agent d’infrastructure. Il s’agit d’une commande de base qui devrait fonctionner pour la plupart des gens :
$sudo systemctl restart newrelic-infra.service
Consultez vos métriques Ray dans New Relic
Une fois la configuration ci-dessus terminée, vous pouvez afficher vos métriques à l'aide de notre modèle dashboard prédéfini. Pour accéder à ce dashboard:
Rendez-vous sur one.newrelic.com > + Integrations & Agents.
Cliquez sur l’onglet Dashboards .
Dans le champ de recherche, tapez
Ray
.Sélectionnez-le et cliquez sur Install.
Pour intrumenter le quickstart Apache Druid et voir les métriques et les alertes, vous pouvez également suivre notre page quickstart Ray en cliquant sur le bouton Install now .
Voici un exemple de requête pour vérifier les nœuds actifs dans votre cluster Ray :
SELECT latest(ray_cluster_active_nodes) FROM Metric
Quelle est la prochaine étape ?
Pour en savoir plus sur la création de requêtes NRQL et la génération de dashboards, consultez ces documents :
- Introduction au générateur de requêtes pour créer des requêtes basiques et avancées.
- Introduction au dashboard pour personnaliser votre dashboard et effectuer différentes actions.
- Gérez votre dashboard pour ajuster votre mode d'affichage du dashboard ou pour ajouter plus de contenu à votre dashboard.