增加存储
在 IBM® watsonx.data 中,数据要么存储在实例配置过程中创建的内部存储中,要么存储在外部管理的存储中。 您可以将目录与存储关联起来。 目录定义了存储的模式和元数据。
当您添加自己的存储桶或数据源,或通过 watsonx.data 的查询引擎查询这些数据源中的数据时,从这些数据源中提取数据可能需要支付出口费用,具体取决于您的服务提供商。 如果您正在使用受管服务,请参阅服务提供者的文档或支持以获取有关这些费用的详细信息。
为减少等待时间问题,建议在供应 watsonx.data 实例的区域中共存其他存储区或数据库。
要添加存储,请完成以下步骤:
-
登录到 watsonx.data 控制台。
-
从导航菜单中,选择 基础架构管理器。
-
要定义和连接存储,请单击 添加组件。
-
在 Add component 窗口中,从 Storage 部分选择一个存储,并提供连接到现有外部管理存储的详细信息。
-
您可以将目录与存储关联起来。 该目录可与发动机相关联。 目录定义了存储或数据源的模式和元数据。 根据存储类型,支持 Apache Apache Hive Apache 和 Delta Lake 目录。
-
支持以下存储设备
-
您可以修改用户注册的存储桶的端点、访问密钥和秘钥。 此功能仅适用于用户注册的存储桶,不适用于默认存储桶、ADLS 或 Google Cloud Storage。 如果新凭据成功通过测试连接,就可以使用此功能。 要修改详细信息,必须将存储与引擎解除关联。
重要信息
- 存储区名称必须唯一,并且必须仅包含字符 A-Z,a-z,0-9 和连字符 (-)。
- 必须使用具有
Writer
角色的服务凭证,因为模式将写入存储区。 确保选择与存储区允许的访问类型相匹配的端点。 即,如果不允许对存储区进行公共访问 (公共访问 为 否),请选择 直接 端点。
其他信息
- 为了冰山连接器:
- 您可以使用以下方法从表中删除数据
DELETE FROM
声明冰山连接器。 - 您可以使用写时复制模式或读取时合并模式(默认)来指定新表的表属性 delete_mode。
- 您可以使用以下方法从表中删除数据
- 为了
DELETE FROM
声明冰山连接器:- 过滤列仅支持比较运算符,例如 EQUALS、LESS THAN 或 LESS THAN EQUALS。
- 删除只能发生在最新的快照上。
- 对于 V1 表,Iceberg 连接器只能删除一个或多个整个分区中的数据。 过滤器中的列必须都是目标表的标识转换分区列。
- 为了
CREATE TABLE
,冰山连接器支架sorted_by
表属性。- 创建表时,指定所涉及的一个或多个列的数组。
- 为了冰山连接器,
ALTER TABLE
列上的操作支持从以下数据类型转换:INT
到BIGINT
FLOAT
到DOUBLE
DECIMAL
(num1,十进制数字)至DECIMAL
(num2,十进制数字),其中num2>num1。
限制
- 为 ADLS Gen1 和 ADLS Gen2 存储使用单独的容器和存储账户,以实现包括表在内的完整元数据同步。 否则,同步完成后,同步日志中会出现 PARTIAL SUCCESS(部分成功)信息。
SQL 语句的限制
- 对于 Iceberg 连接器,不支持带子查询的
UPDATE
查询。 - 对于 Iceberg 连接器,不支持带有混合大小写列的
UPDATE
查询。 - 为了冰山,记忆和 Hive 连接器,
DROP SCHEMA
可以做RESTRICT
默认情况下。 - 对于基于数据库的目录
CREATE SCHEMA
,CREATE TABLE
,DROP SCHEMA
,DROP TABLE
,DELETE
,DROP VIEW
,ALTER TABLE
,和ALTER SCHEMA
声明中没有数据管理器用户界面。
数据类型的限制
- 为了冰山连接器,FLOAT 和 DOUBLE 数据类型的列中最多可容纳 37 位数字。 尝试插入任何更大的内容都会导致十进制溢出错误。
- 当数据类型的字段
REAL
小数部分有 6 位或以上数字,且数字主要为零,查询时的值会四舍五入。 观察发现,根据值的精度,舍入的方式会有所不同。 例如,十进制数1.654四舍五入到小数点后3位数字相同。 另一个例子是10.890009和10.89000。 值得注意的是10.89000四舍五入为10.89,然而10.89009没有四舍五入。 这是一个固有的问题,因为二进制浮点格式的表示限制。 当查询涉及排序时,这可能会产生重大影响。
有关混合大小写功能标志行为、支持的 SQL 语句和支持的数据类型矩阵的更多信息,请参阅 支持内容。
相关应用程序接口
如需了解相关API的信息,请参阅