A Integração Databricks é um aplicativo autônomo que coleta telemetria da Plataforma de Inteligência de Dados Databricks, para ser usado na solução de problemas e otimização de cargas de trabalho Databricks.
A integração coleta os seguintes tipos de telemetria:
- Métricas de aplicativos Apache Spark, como métricas de memória e CPU do executor Spark, durações de trabalhos Spark, durações e métricas de E/S de estágios e tarefas Spark, e métricas de memória e disco Spark RDD
- Métricas de execução de trabalhos Databricks Lakeflow, como durações, horários de início e término, e códigos e tipos de término para execuções de trabalhos e tarefas.
- Métricas de atualização do Databricks Lakeflow Declarative Pipeline, como durações, horários de início e término e status de conclusão para atualizações e fluxos.
- Logs de eventos do Pipeline Declarativo Databricks Lakeflow
- Métricas de consulta do Databricks, incluindo tempos de execução e métricas de E/S de consulta.
- Métricas e logs de integridade do cluster Databricks, como métricas de memória e CPU do driver e do worker e logs do driver e do executor.
- Dados de consumo e custo do Databricks que podem ser usados para mostrar o consumo de DBU e os custos estimados do Databricks.
Instale a integração
A integração do Databricks deve ser implantada no nó do driver de um cluster Databricks de uso geral, de trabalho ou de pipeline. Para implantar a integração dessa forma, siga as etapas para implantar a integração em um cluster Databricks.
A Integração Databricks também pode ser implantada remotamente em um ambiente de host compatível. Para implantar a integração dessa forma, siga as etapas para implantar a integração remotamente.
Verifique a instalação
Depois que a integração do Databricks for executada por alguns minutos, use o construtor de consultas no New Relic para executar a seguinte consulta, substituindo [YOUR_CLUSTER_NAME] pelo nome do cluster Databricks onde a integração foi instalada (observe que, se o nome do seu cluster incluir ', você deve escapar com \):
SELECT uniqueCount(executorId) AS Executors FROM SparkExecutorSample WHERE databricksClusterName = '[YOUR_CLUSTER_NAME]'
O resultado da consulta deve ser um número maior que zero.
Importar os painéis de exemplo (opcional)
Para ajudar você a começar a usar a telemetria coletada, instale nossos painéis pré-construídos usando a instalação guiada.
Alternativamente, você pode instalar os painéis pré-construídos seguindo as instruções encontradas em Importar os painéis de exemplo.
Saber mais
Para saber mais sobre a integração do Databricks, visite o repositório oficial da integração do New Relic Databricks.