将外部数据注册到 watsonx.data
如果您在对象存储桶中已有数据(例如Iceberg、Delta或Hudi表),您可以将其注册到 IBM® watsonx.data,用于运行查询。 要启用此功能,您必须在存储中添加相应的目录。
您可以使用三种格式注册表格。 对于Iceberg表格,您可以在桶级别注册预先存在的数据。 对于Delta和Hudi牌桌,目前仅支持桌级注册。
如果冰山表中的数据因其他系统而发生外部变化,您可能需要在 watsonx.data 端同步数据。 为了便于操作,您可以使用同步功能。
对于Hudi和Delta表格,明确同步是不必要的,因为元数据指针指向的是元数据文件夹,而不是单个元数据文件。 (例如,Iceberg需要引用最新的 metadata.json 文件。)
注册并同步外部Iceberg数据
要注册外部Iceberg数据并将其同步到 watsonx.data,请完成以下步骤:
- 添加存储并将其关联到 Apache Iceberg 目录,请参阅 添加存储。
- 要在 watsonx.data 中提取存储桶中已更改的数据,请访问基础架构管理器页面,将鼠标悬停在 Apache Iceberg 目录上,然后单击同步元数据。 您可以看到三个选项来选择模式和元数据丢失的相应可能性。 以下是三种同步选项:
- 仅注册新对象:上次同步操作后由外部应用程序创建的模式、表和元数据会添加到此目录中。 该目录中的现有模式和表不会被修改。
- 仅更新现有对象:该目录中已有的模式、表和元数据将被更新或删除,以匹配关联数据桶中的当前状态。 相关数据桶中的任何其他模式、表和元数据都将被忽略。
- 同步所有对象:已存在于该目录中的模式、表和元数据将被更新,以准确匹配关联数据桶的状态。 添加所有新对象,更新或删除所有现有对象。
如需了解相关API的信息,请参阅 外部冰山表格注册。
注册外部Hudi和 Delta Lake 数据
要将外部Hudi和 Delta Lake 数据注册到 watsonx.data,请完成以下步骤:
-
添加存储,并根据表格格式类型选择以下目录类型之一。 请参阅 添加存储。
- Apache 胡迪
- Delta Lake
-
您可以使用 注册表 和加载表 元数据 API 来注册和加载表。
要注册表格,您必须提供元数据文件夹的确切位置。 该方案是根据位置url中的路径推断出来的。