データビルドツール(dbt)の統合
IBM® watsonx.dataは、watsonx.data内のデータをビジネスユーザーにとってよりシンプルでアクセスしやすい形に変換するのに役立つデータ分析ツールであるデータ構築ツール(dbt)と統合しています。 アナリストや科学者は、さまざまなモデルを使用してデータパイプラインを構築し、意思決定のためにキュレートされたデータを持つことができます。 dbツールを使ってSQLクエリを実行し、watsonx.dataで利用可能なデータを分析することができます。
dbtは、アナリストや科学者が以下のようなデータ関連のタスクを行うことを可能にします:
-
データ変換のための複雑なワークフローを管理し、バージョン管理、モジュラーコード、継続的インテグレーションなどの機能をサポートします。
-
生データを構造化されたフォーマットに変換することで、レポートや分析のためのデータを準備し、洞察の作成を容易にします。
-
データ変換のさまざまな段階を表す、階層化された再利用可能なモデルを作成する。
-
プロセスにおける問題を特定することにより、変換の信頼性を確保する。
-
モデルに関する明確で理解しやすい文書を作成し、データのパイプラインをどのように通過したかを追跡するために、データ系統の視覚化を提供する。
-
モデル間の依存関係を処理し、変換が正しい順序で実行され、より大規模なデータワークフローと統合できるようにします。
dbtについての詳細はこちらを参照:
dbtはwatsonx.dataのSparkエンジンとPrestoエンジンでサポートされています。dbtは以下のデータビルドツール(dbt)アダプタを使用して、dbtコアとSparkエンジンやPrestoエンジンを接続します。 アダプタは、データモデルの構築、テスト、文書化を支援する。
- dbt-watsonx-presto で Presto に接続
- dbt-watsonx-spark で Apache Spark に接続します
基本的なdbtコマンド
-
dbtプロジェクトの初期化: 新しいdbtプロジェクトを立ち上げます。
dbt init my_project
-
Debug dbt connection: dbtプロファイルと接続をテストします。
dbt debug
-
シード・データ:シードデータをデータベース/データソースにロードします。
dbt seed
-
dbtモデルの実行: モデルを構築し、実行します。
dbt run
-
dbtモデルのテスト:モデルのテストを実行します。
dbt test
-
ドキュメントを生成する:dbtプロジェクトのドキュメントを作成し、提供します。
dbt docs generate dbt docs serve
dbtコマンドの詳細については、dbtコマンド・リファレンス を参照のこと。