安装和使用 dbt-watsonxspark

本节介绍安装和使用 dbt-watsonx-spark 的步骤。

准备工作

在 IBM Cloud 上订阅 watsonx.data。
在 watsonx.data 中提供本地 Spark 引擎。
安装 DBT core。

过程

创建 Spark 查询服务器

要使 Spark 引擎与 dbt 工具集成并作为查询引擎工作，必须创建一个 Spark 查询服务器。请参阅创建 Spark 查询服务器。

读取查询服务器连接详情

要在 dbt 工具中配置配置文件，必须保存查询服务器连接详细信息。请参阅检索查询服务器连接详情。

为 dbt 工具设置 profiles.yaml

转到位于主目录 .dbt 中的 profiles.yml 文件。
通过修改参数值粘贴连接详细信息。
设置 profiles.yml 文件。更多信息，请参阅配置（设置个人资料）。

安装 dbt 工具并验证连接

在系统中运行以下命令安装 dbt-watsonx-spark。
```
pip install dbt-watsonx-spark
```
运行以下命令验证 dbt 版本。
```
dbt --version
```
如果要创建一个 dbt 项目，请提供一个 <project_name> 并运行以下命令 .
```
dbt init <project_name>
```
1. 系统提示选择要使用的数据库。选择 watsonx_spark。
2. 提供 watsonx.data 主机、URI 和模式。
要测试连接，请运行
```
cd <project_name>
dbt debug
```
使用以下命令运行种子，创建表格并插入数据。
```
cd <project_name>
dbt run
```
在 <project_name>/models 中，有执行操作的模型。默认情况下，dbt 将操作设置为 view。您可以通过以下方法之一创建表格或视图：
- 在型号内指定（仅适用于该型号）
```
{{ config(materialized='table/view') }}
```
  如果使用 (--) 将该语句注释掉，dbt 仍会使用该配置。要禁用它，可将其完全删除或以 Jinja 风格注释（{# … #}）。
- 在 dbt_project.yml 中指定（适用于所有型号）
```
models:
  <project_name>:
    <model_folders>:
      +materialized: table/view
```
  例如：
```
models:
  demo:
    example:
      +materialized: table
```
  模型内只支持选择语句。
分号 (;) 字符在模型中受到限制。

使用以下命令创建表格或视图，运行模型。

cd <project_name>
dbt run

您还可以指定所需的测试：

models:
  - name: <model_name>
    description: "some description"
    columns:
      - name: <col_name>
        description: "some description"
        data_tests:
          - <test_name_1>
          - <test_name_2>

例如：

models:
  - name: my_first_dbt_model
    description: "A starter dbt model"
    columns:
      - name: id
        description: "The primary key for this table"
        data_tests:
          - unique
          - not_null

连接器必须支持“创建表格为选择”（CTAS），dbt 运行才能正常工作。

要生成有关已执行操作的文件，请运行
```
cd <project_name>
dbt docs generate
dbt docs serve
```
默认情况下，它在 localhost:8080 上运行。要更改端口，请运行
```
dbt docs serve –-port <port_number>
```