Executando o notebook Spark deWatson Studio sobreCloud Pak for Data

Aplica-se a: Motor de faísca Motor de faísca acelerado com glúten

O tópico fornece o procedimento para executar um aplicativo Spark de amostra usandoWatson Studio cadernos. O notebook reside em um projeto Watson Studio que está disponível no cluster IBM Cloud Pak for Data (CPD).

Você pode baixar e executar o exemplo de caso de uso do Spark emWatson Studio para explorar as seguintes funções emwatsonx.data:

Acessando tabelas
Carregando dados
Modificando esquema
Execução de atividades de manutenção de mesa

Watson Studio fornece cadernos de amostra que permitem executar pequenos trechos de código que processam seus dados e visualizar imediatamente os resultados de seu cálculo. O notebook inclui um exemplo de caso de uso que os usuários podem baixar facilmente e começar a trabalhar.

Pré-requisitos

InstalarWatson Studio no cluster CPD.
Recuperarwatsonx.data credenciais

Obtenha as seguintes informações dewatsonx.data:
- <wxd_hms_endpoint> : ponto final de economia. Por exemplo,thrift://81823aaf-8a88-4bee-a0a1-6e76a42dc833.cfjag3sf0s5o87astjo0.databases.appdomain.cloud:32683. Para obter os detalhes, faça login em seuwatsonx.data Por exemplo, clique no catálogo de dados Iceberg do gerenciador de infraestrutura. Na guia Detalhes, copie o host do Metastore, que é seu <wxd_hms_endpoint>.
- <wxd_hms_username> : Este é o padrão ibmlhapikey.
- <wxd_hms_senha> :Hive Senha do metastore (HMS). Obtenha a senha dowatsonx.data administrador.
Detalhes do bucket de origem: se você trouxer seu próprio notebook Júpiter, deverá exigir os seguintes detalhes do bucket de origem onde os dados residem.
- <source_bucket_endpoint> : endpoint do bucket de origem. Por exemplo, para um bucket de origem na região de Dallas, o endpoint és3.direct.us-south.cloud-object-storage.appdomain.cloud. Use o ponto de extremidade público.
- <source_bucket_access_key> : chave de acesso do bucket de origem.
- <source_bucket_secret_key> : chave secreta do bucket de origem.
Faça o download do caderno de amostra.

Procedimento

Para executar o notebook de exemplo do Spark, siga as etapas:

Faça login na sua conta Watson Studio no cluster IBM Cloud Pak for Data.
Criar um projeto. Para mais informações, veja Criando um projeto.
Selecione o projeto e adicione oJupyter Notebook.
Clique Novos ativos para criar um novo ativo deJupyter Notebook. A página New Assets (Novos ativos ) é aberta. Para mais informações, veja Criando cadernos.
Clique Editores de código.
Pesquise e selecione Jupyter Notebook editor. A página Novo caderno é aberta.
Especifique os detalhes a seguir:
- Nome: Digite o nome do notebook.
- Selecione o tempo de execução do Spark. Deve ser Spark 3.4 com Python 3.10 ou 3.11. Para outras versões compatíveis do Spark, consulte Versão compatível do Spark.
Carregar e executar IBM caderno Spark publicado. Siga as etapas:
- Na janela esquerda, clique em Arquivo local.
- No Arquivo de caderno campo, arraste oIBM Arquivo de notebook Spark (fornecido porIBM ) do seu computador local.
- Atualize as credenciais do watsonx.data, o bucket de origem e os detalhes do bucket do catálogo na seção Configurando o IBM Analytics Engine no notebook.
Clique em Criar. O bloco de notas carregado é aberto.
Você pode percorrer a execução do notebook célula por célula, selecionando Shift-Enter ou você pode executar o notebook inteiro clicando Executar tudo do cardápio.