IBM Cloud Docs
Executando o notebook Spark deWatson Studio sobreCloud Pak for Data

Executando o notebook Spark deWatson Studio sobreCloud Pak for Data

O tópico fornece o procedimento para executar um aplicativo Spark de amostra usandoWatson Studio cadernos. O notebook reside em um projeto Watson Studio que está disponível no cluster IBM Cloud Pak for Data (CPD).

Você pode baixar e executar o exemplo de caso de uso do Spark emWatson Studio para explorar as seguintes funções emwatsonx.data:

  • Acessando tabelas
  • Carregando dados
  • Modificando esquema
  • Execução de atividades de manutenção de mesa

Watson Studio fornece cadernos de amostra que permitem executar pequenos trechos de código que processam seus dados e visualizar imediatamente os resultados de seu cálculo. O notebook inclui um exemplo de caso de uso que os usuários podem baixar facilmente e começar a trabalhar.

Pré-requisitos

  • InstalarWatson Studio no cluster CPD.

  • Recuperarwatsonx.data credenciais

    Obtenha as seguintes informações dewatsonx.data:

    • <wxd_hms_endpoint> : ponto final de economia. Por exemplo,thrift://81823aaf-8a88-4bee-a0a1-6e76a42dc833.cfjag3sf0s5o87astjo0.databases.appdomain.cloud:32683. Para obter os detalhes, faça login em seuwatsonx.data Por exemplo, clique no catálogo de dados Iceberg do gerenciador de infraestrutura. Na guia Detalhes, copie o host do Metastore, que é seu <wxd_hms_endpoint>.

    • <wxd_hms_username> : Este é o padrão ibmlhapikey.

    • <wxd_hms_senha> :Hive Senha do metastore (HMS). Obtenha a senha dowatsonx.data administrador.

  • Detalhes do bucket de origem: se você trouxer seu próprio notebook Júpiter, deverá exigir os seguintes detalhes do bucket de origem onde os dados residem.

    • <source_bucket_endpoint> : endpoint do bucket de origem. Por exemplo, para um bucket de origem na região de Dallas, o endpoint és3.direct.us-south.cloud-object-storage.appdomain.cloud. Use o ponto de extremidade público.

    • <source_bucket_access_key> : chave de acesso do bucket de origem.

    • <source_bucket_secret_key> : chave secreta do bucket de origem.

  • Faça o download do caderno de amostra.

Procedimento

Para executar o notebook de exemplo do Spark, siga as etapas:

  1. Faça login na sua conta Watson Studio no cluster IBM Cloud Pak for Data.

  2. Criar um projeto. Para mais informações, veja Criando um projeto.

  3. Selecione o projeto e adicione oJupyter Notebook.

  4. Clique Novos ativos para criar um novo ativo deJupyter Notebook. A página New Assets (Novos ativos ) é aberta. Para mais informações, veja Criando cadernos.

  5. Clique Editores de código.

  6. Pesquise e selecione Jupyter Notebook editor. A página Novo caderno é aberta.

  7. Especifique os detalhes a seguir:

    • Nome: Digite o nome do notebook.

    • Selecione o tempo de execução do Spark. Deve ser Spark 3.4 com Python 3.10 ou 3.11. Para outras versões compatíveis do Spark, consulte Versão compatível do Spark.

  8. Carregar e executar IBM caderno Spark publicado. Siga as etapas:

    • Na janela esquerda, clique em Arquivo local.

    • No Arquivo de caderno campo, arraste oIBM Arquivo de notebook Spark (fornecido porIBM ) do seu computador local.

    • Atualize as credenciais do watsonx.data, o bucket de origem e os detalhes do bucket do catálogo na seção Configurando o IBM Analytics Engine no notebook.

  9. Clique em Criar. O bloco de notas carregado é aberto.

  10. Você pode percorrer a execução do notebook célula por célula, selecionando Shift-Enter ou você pode executar o notebook inteiro clicando Executar tudo do cardápio.