Databricks の統合

Databricks の統合

Databricks 統合は、トラブルシューティングや Databricks ワークロードの最適化に使用されるテレメトリーを Databricks Data Intelligence プラットフォームから収集するスタンドアロンアプリケーションです。

統合では、次のタイプのテレメトリーが収集されます。

Apache Spark アプリケーションメトリクス (Spark Executor のメモリおよび CPU メトリクス、Spark ジョブの実行時間、Spark ステージおよびタスクの実行時間と I/O メトリクス、Spark RDD のメモリおよびディスクメトリクスなど)
Databricks Lakeflow ジョブ実行メトリクス (期間、開始時間と終了時間、ジョブとタスクの実行の終了コードとタイプなど)。
Databricks Lakeflow Declarative Pipelineメトリクス更新 (更新とフローの期間、開始時間と終了時間、完了ステータスなど)。
Databricks Lakeflow Declarative Pipelineイベントログ
Databricks 書き込みメトリクス (実行時間と書き込みI/Oメトリクスを含む)。
Databricks クラスタの健全性メトリクスとログ (ドライバーとワーカーのメモリ、CPU メトリクス、ドライバーとエグゼキューターのログなど)。
DBU 消費量と推定 Databricks コストを表示するために使用できる Databricks 消費量とコストのデータ。

統合をインストールする

Databricks 統合は、Databricks の汎用、ジョブ、またはパイプラインクラスタのドライバーノード上でデプロイすることを目的としています。この方法で統合をデプロイするには、 Databricks クラスタへの統合をデプロイする手順に従います。

Databricks 統合は、サポートされているホスト環境でリモートからデプロイすることもできます。この方法で統合をデプロイするには、リモートで統合をデプロイする手順に従います。

インストレーションを確認する

Databricks 統合が数分間実行されたら、 New Relicの各ビルダーを使用して次のコマンドを実行します。 [YOUR_CLUSTER_NAME] 、統合がインストールされているDatabricks クラスタの名前に置き換えます (クラスタ名に'が含まれている場合は、それを\でエスケープする必要があることに注意してください)。

SELECT uniqueCount(executorId) AS Executors FROM SparkExecutorSample WHERE databricksClusterName = '[YOUR_CLUSTER_NAME]'

クエリの結果は0 より大きい数値になる必要があります。

サンプルダッシュボードをインポートする（オプション）

収集したテレメトリーの使用を開始するには、ガイド付きインストレーションを使用して、事前に構築されたダッシュボードをインストールします。

あるいは、「サンプルDashboardsインポート」にある手順に従って、事前に構築されたダッシュボードをインストールすることもできます。

もっと詳しく知る

Databricks 統合の詳細については、公式New Relic Databricks 統合リポジトリをご覧ください。

この機械翻訳は、参考として提供されています。

統合をインストールする .css-21sua1{background:none;border:none;width:0;padding:0;}

インストレーションを確認する

サンプルダッシュボードをインポートする（オプション）

もっと詳しく知る

統合をインストールする