IBM Cloud Docs
增加存储

增加存储

在 IBM® watsonx.data 中,数据要么存储在实例配置过程中创建的内部存储中,要么存储在外部管理的存储中。 您可以将目录与存储关联起来。 目录定义了存储的模式和元数据。

当您添加自己的存储桶或数据源,或通过 watsonx.data 的查询引擎查询这些数据源中的数据时,从这些数据源中提取数据可能需要支付出口费用,具体取决于您的服务提供商。 如果您正在使用受管服务,请参阅服务提供者的文档或支持以获取有关这些费用的详细信息。

为减少等待时间问题,建议在供应 watsonx.data 实例的区域中共存其他存储区或数据库。

要添加存储,请完成以下步骤:

  1. 登录到 watsonx.data 控制台。

  2. 从导航菜单中,选择 基础架构管理器

  3. 要定义和连接存储,请单击 添加组件

  4. Add component 窗口中,从 Storage 部分选择一个存储,并提供连接到现有外部管理存储的详细信息。

  5. 您可以将目录与存储关联起来。 该目录可与发动机相关联。 目录定义了存储或数据源的模式和元数据。 根据存储类型,支持 Apache Apache Hive Apache 和 Delta Lake 目录。

  6. 支持以下存储设备

    重要信息

    • 存储区名称必须唯一,并且必须仅包含字符 A-Z,a-z,0-9 和连字符 (-)。
    • 必须使用具有 Writer 角色的服务凭证,因为模式将写入存储区。 确保选择与存储区允许的访问类型相匹配的端点。 即,如果不允许对存储区进行公共访问 (公共访问),请选择 直接 端点。

其他信息

  • 为了冰山连接器:
    • 您可以使用以下方法从表中删除数据 DELETE FROM 声明冰山连接器。
    • 您可以使用写时复制模式或读取时合并模式(默认)来指定新表的表属性 delete_mode。
  • 为了 DELETE FROM 声明冰山连接器:
    • 过滤列仅支持比较运算符,例如 EQUALS、LESS THAN 或 LESS THAN EQUALS。
    • 删除只能发生在最新的快照上。
    • 对于 V1 表,Iceberg 连接器只能删除一个或多个整个分区中的数据。 过滤器中的列必须都是目标表的标识转换分区列。
  • 为了 CREATE TABLE冰山连接器支架 sorted_by 表属性。
    • 创建表时,指定所涉及的一个或多个列的数组。
  • 为了冰山连接器,ALTER TABLE 列上的操作支持从以下数据类型转换:
    • INTBIGINT
    • FLOATDOUBLE
    • DECIMAL(num1,十进制数字)至 DECIMAL(num2,十进制数字),其中num2>num1。

限制

  • 为 ADLS Gen1 和 ADLS Gen2 存储使用单独的容器和存储账户,以实现包括表在内的完整元数据同步。 否则,同步完成后,同步日志中会出现 PARTIAL SUCCESS(部分成功)信息。

SQL 语句的限制

  • 对于 Iceberg 连接器,不支持带子查询的 UPDATE 查询。
  • 对于 Iceberg 连接器,不支持带有混合大小写列的 UPDATE 查询。
  • 为了冰山记忆Hive 连接器,DROP SCHEMA 可以做 RESTRICT 默认情况下。
  • 对于基于数据库的目录 CREATE SCHEMACREATE TABLEDROP SCHEMADROP TABLEDELETEDROP VIEWALTER TABLE,和 ALTER SCHEMA 声明中没有数据管理器用户界面。

数据类型的限制

  • 为了冰山连接器,FLOAT 和 DOUBLE 数据类型的列中最多可容纳 37 位数字。 尝试插入任何更大的内容都会导致十进制溢出错误。
  • 当数据类型的字段 REAL 小数部分有 6 位或以上数字,且数字主要为零,查询时的值会四舍五入。 观察发现,根据值的精度,舍入的方式会有所不同。 例如,十进制数1.654四舍五入到小数点后3位数字相同。 另一个例子是10.890009和10.89000。 值得注意的是10.89000四舍五入为10.89,然而10.89009没有四舍五入。 这是一个固有的问题,因为二进制浮点格式的表示限制。 当查询涉及排序时,这可能会产生重大影响。

有关混合大小写功能标志行为、支持的 SQL 语句和支持的数据类型矩阵的更多信息,请参阅 支持内容

相关应用程序接口

如需了解相关API的信息,请参阅