Databricks 統合は、トラブルシューティングや Databricks ワーク ロードの最適化に使用されるテレメトリーを Databricks Data Intelligence プラットフォームから収集するスタンドアロン アプリケーションです。
統合では、次のタイプのテレメトリーが収集されます。
- Apache Spark アプリケーション メトリクス (Spark Executor のメモリおよび CPU メトリクス、Spark ジョブの実行時間、Spark ステージおよびタスクの実行時間と I/O メトリクス、Spark RDD のメモリおよびディスク メトリクスなど)
- Databricks Lakeflow ジョブ実行メトリクス (期間、開始時間と終了時間、ジョブとタスクの実行の終了コードとタイプなど)。
- Databricks Lakeflow Declarative Pipelineメトリクス更新 (更新とフローの期間、開始時間と終了時間、完了ステータスなど)。
- Databricks Lakeflow Declarative Pipelineイベントログ
- Databricks 書き込みメトリクス (実行時間と書き込みI/Oメトリクスを含む)。
- Databricks クラスタの健全性メトリクスとログ (ドライバーとワーカーのメモリ、CPU メトリクス、ドライバーとエグゼキューターのログなど)。
- DBU 消費量と推定 Databricks コストを表示するために使用できる Databricks 消費量とコストのデータ。
統合をインストールする
Databricks 統合は、Databricks の汎用、ジョブ、またはパイプラインクラスタのドライバー ノード上でデプロイすることを目的としています。 この方法で統合をデプロイするには、 Databricks クラスタへの統合をデプロイする手順に従います。
Databricks 統合は、サポートされているホスト環境でリモートからデプロイすることもできます。 この方法で統合をデプロイするには、 リモートで統合をデプロイする手順に従います。
インストレーションを確認する
Databricks 統合が数分間実行されたら、 New Relicの各ビルダーを使用して次のコマンドを実行します。 [YOUR_CLUSTER_NAME] 、統合がインストールされているDatabricks クラスタの名前に置き換えます (クラスタ名に'が含まれている場合は、それを\でエスケープする必要があることに注意してください)。
SELECT uniqueCount(executorId) AS Executors FROM SparkExecutorSample WHERE databricksClusterName = '[YOUR_CLUSTER_NAME]'
クエリの結果は0 より大きい数値になる必要があります。
サンプルダッシュボードをインポートする(オプション)
収集したテレメトリーの使用を開始するには、ガイド付きインストレーションを使用して、事前に構築されたダッシュボードをインストールします。
あるいは、 「サンプルDashboardsインポート」にある手順に従って、事前に構築されたダッシュボードをインストールすることもできます。
もっと詳しく知る
Databricks 統合の詳細については、公式New Relic Databricks 統合リポジトリをご覧ください。