IBM Cloud Docs
安装和使用 dbt-watsonxspark

安装和使用 dbt-watsonxspark

本节介绍安装和使用 dbt-watsonx-spark 的步骤。

准备工作

  • 在 IBM Cloud 上订阅 watsonx.data。
  • 在 watsonx.data 中提供本地 Spark 引擎。
  • 安装 DBT core

过程

创建 Spark 查询服务器

要使 Spark 引擎与 dbt 工具集成并作为查询引擎工作,必须创建一个 Spark 查询服务器。 请参阅创建 Spark 查询服务器

读取查询服务器连接详情

要在 dbt 工具中配置配置文件,必须保存查询服务器连接详细信息。 请参阅检索查询服务器连接详情

为 dbt 工具设置 profiles.yaml

  1. 转到位于主目录 .dbt 中的 profiles.yml 文件。
  2. 通过修改参数值粘贴连接详细信息。
  3. 设置 profiles.yml 文件。 更多信息,请参阅配置(设置个人资料)。

安装 dbt 工具并验证连接

  1. 在系统中运行以下命令安装 dbt-watsonx-spark

    pip install dbt-watsonx-spark
    
  2. 运行以下命令验证 dbt 版本。

    dbt --version
    
  3. 如果要创建一个 dbt 项目,请提供一个 <project_name> 并运行以下命令 .

    dbt init <project_name>
    
    1. 系统提示选择要使用的数据库。 选择 watsonx_spark
    2. 提供 watsonx.data 主机、URI 和模式。
  4. 要测试连接,请运行

    cd <project_name>
    dbt debug
    
  5. 使用以下命令运行种子,创建表格并插入数据。

    cd <project_name>
    dbt run
    
  6. <project_name>/models 中,有执行操作的模型。 默认情况下,dbt 将操作设置为 view。 您可以通过以下方法之一创建表格或视图:

    • 在型号内指定(仅适用于该型号)

      {{ config(materialized='table/view') }}
      

      如果使用 (--) 将该语句注释掉,dbt 仍会使用该配置。 要禁用它,可将其完全删除或以 Jinja 风格注释({# … #})。

    • 在 dbt_project.yml 中指定(适用于所有型号)

      models:
        <project_name>:
          <model_folders>:
            +materialized: table/view
      

      例如:

      models:
        demo:
          example:
            +materialized: table
      

      模型内只支持选择语句。

    分号 (;) 字符在模型中受到限制。

  7. 使用以下命令创建表格或视图,运行模型。

    cd <project_name>
    dbt run
    

    您还可以指定所需的测试:

    models:
      - name: <model_name>
        description: "some description"
        columns:
          - name: <col_name>
            description: "some description"
            data_tests:
              - <test_name_1>
              - <test_name_2>
    

    例如:

    models:
      - name: my_first_dbt_model
        description: "A starter dbt model"
        columns:
          - name: id
            description: "The primary key for this table"
            data_tests:
              - unique
              - not_null
    

    连接器必须支持“创建表格为选择”(CTAS),dbt 运行才能正常工作。

  8. 要生成有关已执行操作的文件,请运行

    cd <project_name>
    dbt docs generate
    dbt docs serve
    

    默认情况下,它在 localhost:8080 上运行。 要更改端口,请运行

    dbt docs serve –-port <port_number>