安装和使用 dbt-watsonxspark
本节介绍安装和使用 dbt-watsonx-spark
的步骤。
准备工作
- 在 IBM Cloud 上订阅 watsonx.data。
- 在 watsonx.data 中提供本地 Spark 引擎。
- 安装 DBT core。
过程
创建 Spark 查询服务器
要使 Spark 引擎与 dbt 工具集成并作为查询引擎工作,必须创建一个 Spark 查询服务器。 请参阅创建 Spark 查询服务器。
读取查询服务器连接详情
要在 dbt 工具中配置配置文件,必须保存查询服务器连接详细信息。 请参阅检索查询服务器连接详情。
为 dbt 工具设置 profiles.yaml
- 转到位于主目录 .dbt 中的
profiles.yml
文件。 - 通过修改参数值粘贴连接详细信息。
- 设置
profiles.yml
文件。 更多信息,请参阅配置(设置个人资料)。
安装 dbt 工具并验证连接
-
在系统中运行以下命令安装
dbt-watsonx-spark
。pip install dbt-watsonx-spark
-
运行以下命令验证 dbt 版本。
dbt --version
-
如果要创建一个 dbt 项目,请提供一个 <project_name> 并运行以下命令 .
dbt init <project_name>
- 系统提示选择要使用的数据库。 选择
watsonx_spark
。 - 提供 watsonx.data 主机、URI 和模式。
- 系统提示选择要使用的数据库。 选择
-
要测试连接,请运行
cd <project_name> dbt debug
-
使用以下命令运行种子,创建表格并插入数据。
cd <project_name> dbt run
-
在
<project_name>/models
中,有执行操作的模型。 默认情况下,dbt 将操作设置为view
。 您可以通过以下方法之一创建表格或视图:-
在型号内指定(仅适用于该型号)
{{ config(materialized='table/view') }}
如果使用 (--) 将该语句注释掉,dbt 仍会使用该配置。 要禁用它,可将其完全删除或以 Jinja 风格注释(
{# … #}
)。 -
在 dbt_project.yml 中指定(适用于所有型号)
models: <project_name>: <model_folders>: +materialized: table/view
例如:
models: demo: example: +materialized: table
模型内只支持选择语句。
分号 (;) 字符在模型中受到限制。
-
-
使用以下命令创建表格或视图,运行模型。
cd <project_name> dbt run
您还可以指定所需的测试:
models: - name: <model_name> description: "some description" columns: - name: <col_name> description: "some description" data_tests: - <test_name_1> - <test_name_2>
例如:
models: - name: my_first_dbt_model description: "A starter dbt model" columns: - name: id description: "The primary key for this table" data_tests: - unique - not_null
连接器必须支持“创建表格为选择”(CTAS),dbt 运行才能正常工作。
-
要生成有关已执行操作的文件,请运行
cd <project_name> dbt docs generate dbt docs serve
默认情况下,它在 localhost:8080 上运行。 要更改端口,请运行
dbt docs serve –-port <port_number>