Executando o notebook Spark deWatson Studio sobreCloud Pak for Data
O tópico fornece o procedimento para executar um aplicativo Spark de amostra usandoWatson Studio cadernos. O notebook reside em um projeto Watson Studio que está disponível no cluster IBM Cloud Pak for Data (CPD).
Você pode baixar e executar o exemplo de caso de uso do Spark emWatson Studio para explorar as seguintes funções emwatsonx.data:
- Acessando tabelas
- Carregando dados
- Modificando esquema
- Execução de atividades de manutenção de mesa
Watson Studio fornece cadernos de amostra que permitem executar pequenos trechos de código que processam seus dados e visualizar imediatamente os resultados de seu cálculo. O notebook inclui um exemplo de caso de uso que os usuários podem baixar facilmente e começar a trabalhar.
Pré-requisitos
-
InstalarWatson Studio no cluster CPD.
-
Recuperarwatsonx.data credenciais
Obtenha as seguintes informações dewatsonx.data:
-
<wxd_hms_endpoint> : ponto final de economia. Por exemplo,thrift://81823aaf-8a88-4bee-a0a1-6e76a42dc833.cfjag3sf0s5o87astjo0.databases.appdomain.cloud:32683. Para obter os detalhes, faça login em seuwatsonx.data Por exemplo, clique no catálogo de dados Iceberg do gerenciador de infraestrutura. Na guia Detalhes, copie o host do Metastore, que é seu <wxd_hms_endpoint>.
-
<wxd_hms_username> : Este é o padrão
ibmlhapikey
. -
<wxd_hms_senha> :Hive Senha do metastore (HMS). Obtenha a senha dowatsonx.data administrador.
-
-
Detalhes do bucket de origem: se você trouxer seu próprio notebook Júpiter, deverá exigir os seguintes detalhes do bucket de origem onde os dados residem.
-
<source_bucket_endpoint> : endpoint do bucket de origem. Por exemplo, para um bucket de origem na região de Dallas, o endpoint és3.direct.us-south.cloud-object-storage.appdomain.cloud. Use o ponto de extremidade público.
-
<source_bucket_access_key> : chave de acesso do bucket de origem.
-
<source_bucket_secret_key> : chave secreta do bucket de origem.
-
-
Faça o download do caderno de amostra.
Procedimento
Para executar o notebook de exemplo do Spark, siga as etapas:
-
Faça login na sua conta Watson Studio no cluster IBM Cloud Pak for Data.
-
Criar um projeto. Para mais informações, veja Criando um projeto.
-
Selecione o projeto e adicione oJupyter Notebook.
-
Clique Novos ativos para criar um novo ativo deJupyter Notebook. A página New Assets (Novos ativos ) é aberta. Para mais informações, veja Criando cadernos.
-
Clique Editores de código.
-
Pesquise e selecione Jupyter Notebook editor. A página Novo caderno é aberta.
-
Especifique os detalhes a seguir:
-
Nome: Digite o nome do notebook.
-
Selecione o tempo de execução do Spark. Deve ser Spark 3.4 com Python 3.10 ou 3.11. Para outras versões compatíveis do Spark, consulte Versão compatível do Spark.
-
-
Carregar e executar IBM caderno Spark publicado. Siga as etapas:
-
Na janela esquerda, clique em Arquivo local.
-
No Arquivo de caderno campo, arraste oIBM Arquivo de notebook Spark (fornecido porIBM ) do seu computador local.
-
Atualize as credenciais do watsonx.data, o bucket de origem e os detalhes do bucket do catálogo na seção Configurando o IBM Analytics Engine no notebook.
-
-
Clique em Criar. O bloco de notas carregado é aberto.
-
Você pode percorrer a execução do notebook célula por célula, selecionando Shift-Enter ou você pode executar o notebook inteiro clicando Executar tudo do cardápio.