版本说明 watsonx.data
使用这些发行说明可了解按日期分组的 IBM® watsonx.data 最新更新。
2025 年 4 月 10 日 - 2.1.2 Hotfix 1 版本
- 发动机和服务改进
-
本版 watsonx.data 引入了以下服务增强功能:
推出 Tiny Milvus,这是 Milvus 向量数据库的轻量级单节点部署,专为实验和早期开发而量身定制。
Tiny Milvus 提供 Milvus 的核心体验,专为在 watsonx.ai 平台上使用而设计。 它是基于矢量的人工智能探索的切入点,所需资源最少,有助于确保有效的数据管理和分析。 它有别于 watsonx.data 中的其他 Milvus 配置,后者支持更广泛的可扩展性和企业级功能。
Tiny Milvus 支持多达 10K 载体,适合在没有繁重基础设施的情况下进行快速试验和早期实验。 它不适用于生产工作负载。
有关使用 Tiny Milvus 的更多信息,请参阅 设置 watsonx.data Milvus 矢量存储。
2025 年 4 月 04 日 - 版本 2.1.2
watsonx.data 2.1.2 该版本将分阶段向不同地区发布,并非在所有地区都有供应。 如需了解您所在地区是否提供 2.1.2 版本,请联系 IBM 支持部门。 如果您目前使用的是 watsonx.data 2.1.1 版本,可以参考文档、watsonx.data 2.1.1.
- 数据源和存储增强
-
watsonx.data 这一版本包括以下存储增强功能:
现在您可以连接到 IBM Db2 for i 数据源。 有关 IBM Db2 for i 的信息,请参见 IBM Db2 for i.
- 连接性增强
-
watsonx.data 这一版本包括以下连接性增强功能:
现在,您可以使用虚拟专用端点安全、私密地连接到 watsonx.data 实例。 有关在 watsonx.data 中配置网络端点的信息,请参阅 设置虚拟专用端点。
- 集成增强功能
-
watsonx.data 的此次发布引入了以下与其他服务的增强集成:
- 现在,当您与 watsonx.data 集成时,可以为 Presto (C++) 引擎定义 IBM Knowledge Catalog 治理策略。 有关连接 IBM Knowledge Catalog (IKC) 的信息,请参阅 连接 IBM Knowledge Catalog(IKC )。
- 现在,您可以根据 ODBC 驱动程序选择(Simba 或 CData),为目标 Presto 引擎导出配置文件,以便更轻松地与 watsonx.data 建立连接。 这一改进使您无需使用 PowerBI 手动配置 Presto 引擎的详细信息。 有关使用配置文件连接 Presto 的更多信息,请参阅 使用配置文件连接 Presto。
- 增强摄取
-
本版 watsonx.data 包括以下摄入增强功能:
使用外部 Spark 引擎的摄取作业现在可在 watsonx.data 中提供日志。 这一增强功能可让用户直接在 watsonx.data 的云平台( SaaS 实例)上有效识别作业执行情况并排除故障。 有关摄取程序的详细信息,请参阅“通过网络控制台使用 Spark 摄入数据”。
- 发动机和服务改进
-
本版 watsonx.data 引入了以下引擎和服务增强功能:
现在,您可以使用 Azure Data Lake Storage Gen2,AccessKey Authmode with Spark engine,在提交 Spark 应用程序的同时存储数据。 有关 Azure Data Lake Storage Gen2 的信息,请参阅 Azure Data Lake Storage。
- 查询工作区增强功能
-
本版 watsonx.data 引入了以下查询工作区增强功能:
现在您可以选择取消一个或多个正在运行的查询。 此外,在取消或成功完成查询后,还可以从工作表中删除查询,使工作区更加井然有序。 更多信息,请参阅 运行 SQL 查询。
- 加强访问管理
-
watsonx.data 的这一版本引入了以下访问管理增强功能:
- 管理员现在可以为 IBM Db2 和 IBM Netezza 配置访问权限。 他们可以为 watsonx.data 用户分配查看、编辑和管理 IBM Netezza 和 IBM Db2 引擎的角色。 有关资源级权限的信息,请参阅 (Db2 和 Netezza )。
- 在创建和查看自己的模式时,管理员现在可以授予或撤销用户或角色的特定权限。 有关数据策略规则的信息,请参阅 管理数据策略规则。
- 之前被弃用的 DAS 代理流现已移除,在 watsonx.data 中不再可用。
- 查询历史监控和管理 (QHMM) 增强功能
-
本版 watsonx.data 引入了以下 QHMM 增强功能:
- 现在,当您在 watsonx.data 中配置查询监控时,可以选择与 QHMM 目录相关联的 Presto 引擎。 有关配置 QHMM 的信息,请参阅 配置查询监控。
- 现在,您可以使用迁移脚本在 watsonx.data 中将 QHMM 数据从源数据桶传输到目标数据桶。 有关使用迁移脚本的更多信息,请参阅 QHMM Shell 脚本用法。
- CPDCTL CLI增强功能
-
本版 watsonx.data 对 IBM Cloud Pak for Data 命令行界面 ( IBM cpdctl) 进行了以下改进:
- 从 2.1.2 版本开始,默认情况下可使用
wx-data
命令,这样就可以在 watsonx.data 中执行摄取、管理引擎等操作。 - 您可以使用
wx-data engine create
和wx-data engine delete
命令配置和删除 watsonx.data 中的所有可用引擎。 - 您可以使用
sparkjob
命令提交、列出和获取 Spark 应用程序的详细信息。 INSTANCE_ID
替换为。WX_DATA_INSTANCE_ID
更多信息,请参阅 IBM cpdctl。
- 从 2.1.2 版本开始,默认情况下可使用
2025年2月28日 - 版本 2.1.1
- 新区域可用性
-
watsonx.data 现在多伦多地区提供精简版和企业版套餐。 要了解配置,请参阅 配置 watsonx.data 精简版计划 和 配置 watsonx.data 企业版计划。
- 数据源和存储增强
-
watsonx.data 的此次发布包括以下存储增强功能:
- 增强摄取
-
在完成数据提取工作后,您现在可以直接从 “数据提取历史”页面访问提取的数据,从而简化工作流程并节省时间。
- 集成增强功能
-
watsonx.data 的此次发布引入了以下与其他服务的增强集成:
- “连接信息” 页面现在包括:
- Presto DBT集成的配置详情。 您可以从本页复制DBT集成所需的 Presto 配置详细信息。
- 可选择导出TDS文件,其中包含 Tableau 集成所需的 Presto 发动机配置详情。
有关详细信息,请参阅 获取连接信息。
- “连接信息” 页面现在包括:
- 发动机和服务改进
-
此版本的 watsonx.data 引入了以下引擎和服务增强功能:
- 现在,您可以在Spark引擎详情页面的 “应用程序”选项卡中创建Spark应用程序。 更多信息,请参阅 从控制台提交Spark应用程序。
- 现在,您可以使用 Spark 版本,3.5.4,在 watsonx.data 中运行应用程序。 watsonx.data、Apache Spark 3.4.4 和 Apache Spark 3.5.4 是支持的版本。
- Milvus 允许以下操作:
- 现在,您可以在 Milvus 中根据多个向量列进行混合 GroupBy 搜索,并在运行搜索查询时自定义组大小。 更多信息,请参阅 将 watsonx Assistant 连接到 watsonx.data Milvus 进行自定义搜索。
- Milvus 现在支持自定义大小,容量为30亿个向量,最多1,024个维度。
- Milvus 现在可以在预先定义的T恤尺寸(小号、中号和大号)或自定义尺寸之间进行放大或缩小。 更多信息,请参阅 添加 Milvus 服务。
- 从 watsonx.data 2.1.1 版本开始,Milvus 2.5.0 版本得到支持。 更多信息,请参阅 Milvus。
- 加强访问管理
-
watsonx.data 的这一版本引入了以下访问管理增强功能:
- watsonx.data 中的访问管理服务(AMS)现在可以对来自 Presto 的请求使用JSON Web Token(JWT)认证,确保安全高效的访问控制。 更多信息,请参阅 通过 Presto CLI(远程)连接到 Presto 引擎。
- 现在,您可以将用户和角色批量分配给基础设施组件,每批20个。 有关更多信息,请参阅管理用户访问权。
- 现在,您可以使用 Apache Ranger Hadoop SQL策略来管理Spark引擎的数据。 当Spark引擎访问 Hadoop 集群中的数据时,您可以定义Ranger策略。 启用Ranger策略可确保可靠的数据安全性和管理。 使用 Ranger 策略,您可以配置表授权( L3 )、行级过滤和数据列掩码。 更多信息,请参阅 启用 Apache Ranger资源策略。
- CPDCTL CLI增强功能
-
IBM
CPDCTL
CLI 现在用于配置和管理 watsonx.data 中的不同操作。 使用CPDCTL
命令行界面,您可以管理配置设置、运行采集任务、管理引擎、数据源和存储。 目前使用以下两个插件来执行这些操作:config
- 配置 watsonx.data 服务环境和用户。wx-data
- 在 watsonx.data 中执行其他操作,例如,引擎的摄取和管理等。 如需了解更多信息,请发送电子邮件至 IBM cpdctl。
- 不推荐的功能
-
以下功能在本版本中被弃用:
-
数据访问服务(DAS)代理功能现已弃用,并将在未来版本中移除。 您不能使用数据访问服务(DAS)代理功能访问对象存储( S3、ADLS和ABS)。 如果您在使用DAS代理流时遇到任何问题,请联系 IBM 支持。 如需了解DAS功能的概述,请参阅 数据访问服务(DAS )。
-
IBM 客户端包现已弃用,将在未来版本中移除。 客户端软件包中的实用程序和命令替换为 IBM CPDCTL CLI。 如需了解如何使用 IBM CPDCTL CLI,请访问 IBM cpdctl。
-
2025年2月4日 - 版本 2.1.0 补丁 2
- 精简计划增强
- IBM® watsonx.data 悉尼地区现已推出精简版套餐。 有关在悉尼地区配置精简版计划实例的更多信息,请参阅 配置精简版计划。
2025年1月10日 - 版本 2.1.0 补丁 1
- 企业计划提升
- 如果您使用 IBM Cloud 在悉尼地区配置企业计划实例,则必须使用计划名称
lakehouse-enterprise-mcsp
。 更多信息,请参阅 通过CLI提供实例。
2024 年 12 月 13 日 - 版本 2.1.0
- 数据源和存储增强
-
该版本包括以下新数据源和存储增强功能:
-
现在您可以连接到 Apache Phoenix 数据源。 更多信息,请参阅 Apache Phoenix
-
如果使用 MySQL 数据源,现在可以在“配置”页面的“驱动程序管理器”部分管理驱动程序。 每个驱动程序都要经过一系列验证步骤。 您不能再测试 MySQL 连接。 有关详细信息,请参阅 MySQL。
升级到 2.1.0 版后,现有的 MySQL 目录将不再与引擎链接。 这意味着需要重新建立 MySQL 目录和引擎之间的连接。
-
测试连接功能现在可用于 Arrow Flight service支持的以下数据源:
- Apache Derby
- Salesforce
- Greenplum
- MariaDB
-
现在,您可以测试 Azure Data Lake Storage (ADLS) 和 IBM Data Virtualization Manager for z/OS 数据源的连接。
-
- 集成增强功能
-
watsonx.data的这一版本引入了以下新的或增强的与其他服务的集成:
-
现在您可以从“配置”页面启用 Databand 连接。 更多信息,请参阅 使用 Databand 监控 Spark 应用程序的运行。
-
现在,您可以从 watsonx.data 实例 > 配置 > 连接信息 页面获取 Presto 连接信息,进行以下集成:
- 商业智能工具
- DataBuildTool (dbt)
-
从 watsonx.data 版本 2.1 开始,您只能与以下一种策略引擎集成:
- Apache Ranger
- IBM Knowledge Catalog (IKC)
更多信息,请参阅 连接信息。
-
现在,您可以将 IBM Manta Data Lineage 与 watsonx.data 集成,通过 Manta UI 从 Spark 捕捉并发布作业、运行和数据集事件。 有关详细信息,请参阅 IBM Manta Data Lineage。
-
现在,您可以通过 Presto 的 dbt 适配器使用所有 Presto 数据类型。 在 dbt_project.yml 中指定数据类型为 column_types。 更多信息,请参阅 安装和使用 dbt- watsonx-presto。
-
- 发动机和服务改进
-
此版本的 watsonx.data 引入了以下引擎和服务增强功能:
-
您现在可以使用带有 AccessKey Authmode 的 Azure Data Lake Storage Gen2 和带有 Presto (C++)引擎的 Google Cloud Storage。 现在,您可以在提交Spark应用程序时使用 Azure (ADLS)和 Google Cloud Storage 来存储数据。更多信息,请参阅 Azure 和 Google Cloud Storage。
-
现在,您可以使用带有数据访问服务(DAS)的Google Cloud Storage (GCS)来存储数据,同时提交 Spark 应用程序。 有关详细信息,请参阅 使用本地 Spark 引擎提交 Spark 应用程序。
-
现在,您可以启用 Spark 访问控制扩展来访问和操作 Hive 和 Hudi 目录。 更多信息,请参阅 使用 Spark 访问控制扩展为外部 Spark 增强 Spark 应用程序提交 和 使用 Spark 访问控制扩展为本地 Spark 增强 Spark 应用程序提交。
-
现在,您可以在 watsonx.ai 笔记本中选择 watsonx.data Spark 引擎作为运行环境。 这样,您就可以在 watsonx.data 本地 Spark 引擎上运行 Jupyter 笔记本。 更多信息,请参阅 使用 watsonx.ai 笔记本。
-
Presto 管理员现在可以通过 API 配置 JMX 指标。 目前,JMX 属性名称中的键只允许使用字母数字字符。 更多信息,请参阅 更新 presto 引擎。
-
- 使用 ibm-lh 实用程序查询历史信息
-
使用 ibm-lh 实用程序可以获得以下查询历史信息:
- 基本查询信息
- 查询失败的基本错误信息。
- 查询统计信息。
- 查询内存信息。
- 查询垃圾回收信息。
- 最高查询时间。
- 查询的内存使用详情。
- 连接两个表后的信息。
- 包含表格所有列的信息。
- 查询中的错误信息。
- 所有错误代码的计数。
- 所有故障信息的计数。
- 所有故障类型的计数。
更多信息,请参阅 使用 ibm-lh 实用程序检索 QHMM 日志。
- 加强摄入
-
此版本的 watsonx.data 引入了以下摄取增强功能:
-
目标表预览:在提交摄取任务之前,用户现在可以预览目标表模式并编辑列标题和数据类型。 这样可以进行验证,确保数据被输入到正确的表结构中。 更多信息,请参阅 通过网络控制台使用 Spark 接收数据。
-
Java 的表创建摄取:数据管理器现在包含一个选项,可使用导航到本地摄取的Java摄取流程创建表格,根据文件大小和其他因素提供灵活性和控制。 更多信息,请参见 创建表格 和 通过网络控制台使用 Spark 接收数据。
-
增强源存储支持:
- Azure 数据湖存储 (ADLS):现已支持直接从 ADLS 采集数据。
- Google Cloud Storage (GCS):现已支持直接从 GCS 采集数据。
-
临时存储:用户现在可以选择外部存储桶作为本地摄取的暂存区。 如果未指定存储空间,watsonx.data 可以推断并选择一个合适的存储桶。 更多信息,请参阅 通过网络控制台使用 Spark 接收数据。
-
- 元数据服务(MDS)简介
-
从 2.1 版开始,watsonx.data 将使用元数据服务(MDS)而非 Hive 元存储(HMS)。 MDS 与现代开放式目录 API、Unity Catalog API 和 Apache Iceberg REST Catalog API 兼容,可实现更广泛的工具集成并提高灵活性。 这种新架构性能相当,同时还能通过现有的 Thrift 或 HMS 接口继续支持 Spark 和 Presto 客户端。 更多信息,请参阅 元数据服务(MDS)概述。
建议先在测试环境中使用 MDS,然后再在生产环境中使用。
- 不推荐的功能
-
以下功能在本版本中被弃用:
- 通过事件监听器在 watsonx.data 中捕获 DDL 变更的 REST API 功能将从 watsonx.data 发布版本 2.1 开始弃用。
2024 年 11 月 13 日 -2.0.4版修复程序
- 精简版计划改进
-
此热修复版本包括以下精简版计划增强功能:
-
精简版计划现在包括一个与Presto引擎相关联的专用只读样本IBMCOS 存储,以支持查询样本和基准数据。
-
现在,您可以使用 tpcds 示例工作表来处理高性能用例,使用 Gosales 示例工作表来处理数据工程和GenAI用例。
-
查询优化器现在已为高性能 BI 用例自动启用。
-
2024 年 10 月 29 日 - 版本2.0.4
- 发动机和服务改进
-
该版本包括以下引擎和服务增强功能:
-
PrestoJava) 和Presto(C++) Worker 的 "
task.max-drivers-per-task
属性默认值现在根据vCPUs 数量设置。 -
您可以在查询监控页面的查询历史记录监控和管理 (QHMM) 中启用文件剪枝功能。 您还可以配置 QHMM 存储桶的最大大小和阈值百分比。 当文件上传或清理调度程序运行(默认每 24 小时一次)期间达到阈值时,旧数据将被删除。 更多信息,请参阅 配置查询监控。
-
查询历史记录监控和管理 (QHMM) 不再将诊断数据存储在默认的IBM管理试用桶(
wxd-system
)中。要存储诊断数据,现在必须使用 QHMM 支持的存储类型。 有关使用自有存储的更多信息,请参阅 配置查询监控。 -
现在,您可以通过检查 JSON 文件中的 "
wxdQueryOptimized
参数来验证查询优化状态。 更多信息,请参阅 从Presto(C++)CLI 或查询工作区运行查询。
-
- 增强数据源
-
该版本包括以下数据源和存储增强功能:
-
测试连接功能现在可用于以下数据源:
- Apache Pinot
- Cassandra
- Prometheus
-
新数据源 SAP HANA 现已推出。 您可以使用“配置”页面下的“驱动程序管理器”来管理SAP HANA数据源的驱动程序。 每个驱动程序都要经过一系列验证。 有关SAP HANA数据源和 BYOJ 流程的更多信息,请参阅 SAP HANA。
-
- Lite 套餐
-
为提高可用性,精简版计划用户现在可以隐藏系统目录(cmx 和系统)。 使用Presto(C++) 引擎的精简版计划实例包括作为基准目录的 "
tpch
,而使用PrestoJava) 引擎的实例包括作为基准目录的 "tpch
和 "tpcds
。 - 不推荐的功能
-
以下功能在本版本中被弃用:
-
通过事件监听器捕获watsonx.data中 DDL 变更的 REST API 功能在此版本中被弃用,并将随2.1版发布从watsonx.data中移除。
-
已不再支持Apache Spark 3.3运行时。 您必须升级到 Spark3.4。 要更新Apache Spark版本,请参阅 编辑 Spark 引擎详细信息。
-
2024 年 9 月 25 日 - 版本 2.0.3
- 数据源和存储增强
-
该版本包括以下新数据源和存储增强功能:
-
现在,您可以为 Milvus 启用 Azure Data Lake Storage Gen1 Blob 和 Google Cloud Storage。 有关详细信息,请参阅 ADLS Gen1 Blob 和 Google Cloud Storage。
-
您可以为引擎创建或添加新的数据源,而无需为其附加目录。 目录可在稍后阶段附加到数据源。
-
现在,你可以将 Apache Ozone 存储用于 Presto (Java) 引擎。 有关更多信息,请参阅 Apache Ozone。
-
现在,您可以配置 Apache Kafka 数据源使用加盐挑战响应身份验证机制 (SCRAM) 身份验证机制。 您可以上传自签名证书。 有关详细信息,请参阅 Apache Kafka。
-
- 集成增强功能
-
watsonx.data的这一版本引入了以下新的或增强的与其他服务的集成:
-
现在,您可以将 watsonx.data 与 Spark 引擎的数据构建工具 (dbt) 集成,以便在 watsonx.data 中进行就地数据转换。 有关详细信息,请参阅 关于 dbt 集成。
-
您可以将 watsonx.data 与 Databand 整合。 这种集成可以提供超越 Spark UI 和 Spark History 的洞察力,从而增强监控功能。 有关详细信息,请参阅 使用 Databand 监控 Spark 应用程序的运行。
-
您可以将watsonx.data与以下Business Intelligence(BI)可视化工具集成,以访问连接的数据源,并构建引人注目的交互式数据可视化:
- Tableau
- Looker
- Domo
- Qlik
- PowerBI
有关详细信息,请参阅 关于 BI 可视化工具。
-
- 发动机和服务改进
-
此版本的 watsonx.data 引入了以下引擎和服务增强功能:
-
查询优化器支持冰山表格。 有关详细信息,请参阅 查询优化器。
-
现在,您可以使用数据构建工具 (dbt-watsonx-presto) 适配器为 Presto (Java) 引擎构建、测试和记录数据模型。 有关详细信息,请参阅 dbt-watsonx-presto。
-
Presto (C++) 引擎新增了一个自定义属性(file-column-names-read-as-lower-case),以避免列名中的大小写字母不匹配。 有关详细信息,请参阅 Presto(C++) 的目录属性。
-
- 加强访问管理
-
watsonx.data 的这一版本引入了以下访问管理增强功能:
-
现在,您可以添加用户和用户组来定义数据策略规则。 有关详细信息,请参阅 数据政策。
-
管理员现在可以选择 TPCDS 和 TPCH 目录来创建访问控制策略。 选择 "是使用这些目录定义规则的唯一允许操作。 要定义数据策略,请参阅 数据策略。
-
管理员现在可以在创建资源组后编辑资源组配置。 有关更多信息,请参阅 配置 Presto 资源组。
-
- IBM Knowledge Catalog数据源治理政策
-
现在,您可以将 IBM Knowledge Catalog 治理策略应用到 Presto 中的以下数据源:
- Oracle
- PostgreSQL
- MySQL
- SQL Server
- Db2
- 加强摄入
-
watsonx.data的这一版本包括对摄取工作流程的以下改进:
-
现在,您可以使用数据源提交摄取任务。 有关详细信息,请参阅 通过网络控制台使用 Spark 挖掘数据。
-
现在,您可以使用 AVRO 和 ORC 文件格式采集数据。 有关详细信息,请参阅 关于数据摄取。
-
您可以预览上传的文件,并点击表头编辑列名。 有关详细信息,请参阅 通过网络控制台使用 Spark 挖掘数据。
-
您可以访问和查看与摄取任务相关的 Spark 日志。 有关详细信息,请参阅 为摄取作业获取 Spark 日志。
-
- Lite 套餐
-
您可以根据以下三种使用情况配置精简版计划实例。 从列表中选择一个用例继续:
- 生成式人工智能:您可以使用此选项探索生成式人工智能用例。 配置的实例包括 Presto、Milvus 和 Spark。
- 高性能商业智能:您可以使用该选项探索商业智能可视化功能。 配置的实例包括 Presto (C++) 和 Spark。
- 数据工程工作负载:您可以使用数据工程工作负载来探索各种工作负载驱动的用例。 配置的实例包括 Presto (Java) 和 Spark。
有关详细信息,请参阅 精简版计划。
2024 年 8 月 27 日 - 版本 2.0.2
数据源和存储增强
该版本包括以下新数据源和存储增强功能:
-
内容感知存储(CAS)现在称为数据访问服务(DAS)。
-
Apache Hive 已升级到 4.0.0 版本。
-
现在,您可以从 Storage details 页面查看 DAS 端点。 有关详细信息,请参阅 探索存储对象。
集成增强功能
watsonx.data的这一版本引入了以下新的或增强的与其他服务的集成:
-
现在,您可以在 watsonx.data 平台内的 SQL 视图中使用 IBM Knowledge Catalog的治理功能。 有关详细信息,请参阅 与 IBM Knowledge Catalog(IKC) 集成。
-
IBM watsonx.data 现在支持 Apache Ranger 策略,以便使用 Presto (C++) 引擎管理数据。 有关详细信息,请参阅For more information, see Apache护林员政策。
增强发动机和服务
此版本的 watsonx.data 引入了以下引擎和服务增强功能:
-
实例管理员现在可以在 Presto 中配置资源组。 有关详细信息,请参阅 资源组。
-
现在,您可以使用应用程序接口来执行查询和检索结果。 有关详细信息,请参阅 API。
-
现在,您可以通过 API 自定义配置或更改 Presto (Java) 的日志级别。 更多信息,请参阅 API。
-
现在,您可以使用 Iceberg Spark Analyze 程序生成“不同值个数”(NDV)列统计数据,以增强 Spark 基于成本的优化器(CBO),从而改进查询规划。
-
现在,您可以使用自定义数据源选项连接到Presto(Java)引擎的黑洞和本地文件连接器。 有关详细信息,请参阅 自定义数据源。
-
现在,您可以为 Presto 引擎和 Milvus 服务生成 JSON 代码段。 您可以将其复制/粘贴到 watsonx.data 中。IBM Cloud Pak for Data 和 watsonx 中的 Presto 和 Milvus 连接器用户界面,以简化连接创建。 有关详细信息,请参阅 获取连接信息。
增强访问管理
watsonx.data 的这一版本引入了以下访问管理增强功能:
-
现在,您可以控制对 Presto (C++) 引擎的访问。 有关更多信息,请参阅 Engine(Presto(Java)或 Presto(C++))。
-
现在,您可以批量授予用户和用户组组件访问权限。 有关更多信息,请参阅管理用户访问权。
-
现在,您可以在 Presto 中获得包含 DEBUG 信息的系统访问控制 (SAC) 插件日志。 有关详细信息,请参阅 API 自定义。
加强摄入
此版本的 watsonx.data 引入了以下摄取增强功能:
- watsonx.data 中的摄取工作流程现已简化为提交摄取任务,并支持本地文件摄取。 有关详细信息,请参阅 通过网络控制台使用 Spark 挖掘数据。
- 现在,您可以使用 JSON 文件格式采集数据。 有关详细信息,请参阅 关于数据摄取。
- CSV 文件属性现在可作为支持
ibm-lh data-copy
的参数使用。 有关详细信息,请参阅 ibm-lh工具支持的选项和参数。 - 新环境变量可通过
ibm-lh tool
命令行进行 Spark 采集。 有关详细信息,请参阅 通过 ibm-lh 工具命令行进行火花摄取。
2024 年 8 月 01 日 - 版本 2.0.1
数据源
- 现在,您可以使用 IBM API 密钥作为身份验证机制,连接到 Db2 数据源。 有关详细信息,请参阅 IBM Db2。
- Presto (C++) 引擎现在可以与 Arrow Flight service数据源关联。 支持只读操作。 支持以下箭头 Flight service数据源:
- Salesforce
- MariaDB
- Greenplum
- Apache Derby
有关详细信息,请参阅For more information, see 箭Flight service。
- 以下新数据库适用于 Presto (Java) 引擎:
- Redis
- Apache Druid
- 有关详细信息,请参阅 Redis 和 Apache Druid。
集成
-
在将 IBM Knowledge Catalog与 IBM watsonx.data 集成时,您可以为表中的单个行配置数据保护规则,允许用户访问表中行的子集。 有关更多信息,请参阅 过滤行。
-
现在,您可以为 Presto (Java) 引擎应用以下 Apache Ranger 策略:
-
您现在可以将 IBM watsonx.data 与内部部署的 IBM DataStage 集成。 您可以使用 DataStage 服务从 IBM watsonx.data 加载和读取数据。 有关详细信息,请参阅 与 DataStage。
认证和授权
-
Spark 访问控制扩展允许额外的授权,从而提高了提交申请时的安全性。 如果在 spark 配置中启用扩展,则只允许授权用户通过 Spark 作业访问和操作 IBM watsonx.data 目录。 有关详细信息,请参阅 使用 Spark 访问控制扩展增强 Spark 应用程序的提交。
-
IBM watsonx.data 现在支持 Azure Data Lake Storage 和 Azure Blob Storage 的对象存储代理和签名。 有关详细信息,请参阅 使用 DAS 代理访问 ADLS 和 ABS 兼容存储桶。
-
现在为 Teradata 和 Db2 数据源提供轻量级目录访问协议 (LDAP)。 用户需要在服务器级别设置该配置。 对于 Teradata,请在用户界面中明确选择身份验证机制类型为 LDAP。 有关详细信息,请参见 Teradata。
在 2.0.1 版本中,用于访问 ADLS 和 ABS 数据桶的 DAS 代理以及 LDAP 增强功能是技术预览版。
- Milvus 现在支持用户分区级隔离。 管理员可授权用户在分区上执行特定操作。 更多信息,请参阅 服务( Milvus )。
存储器
- 现在,您可以在 IBM watsonx.data 中的 Presto (Java) 引擎中添加以下存储:
- Azure 数据湖存储 Gen2
- Azure 数据湖存储 Gen1 Blob
有关详细信息,请参阅 Azure Data Lake 存储 Gen2 和 Azure Data Lake 存储 Gen1 Blob。
- 您可以修改用户注册的存储桶的访问密钥和秘密密钥。 此功能不适用于默认存储桶、ADLS 或 Google Cloud Storage。 只有当新凭证成功通过测试连接时,才能使用此功能。
引擎
- 现在,您可以对 MongoDB 数据源使用 ALTER TABLE ADD、DROP 和 RENAME 列语句。
- 现在,您可以配置 Presto 如何处理不支持的数据类型。 有关更多信息,请参阅 ignore-unsupported-datatypes。
目录
- 现在可以通过用户界面在基础架构管理器页面的“管理关联”下将目录批量关联到引擎或解除关联。
应用程序接口定制和属性
-
为 Presto (C++) 工人添加了以下自定义参数:
- system-mem-limit-gb
- system-mem-shrink-gb
- system-mem-pushback-enabled
有关详细信息,请参阅 Presto(C++)- 工作节点的配置属性。
-
为 Presto (C++) 协调器节点添加了配置属性
optimizer.size-based-join-flipping-enabled
。 有关更多信息,请参阅 Presto(C++)的配置属性 - 协调器节点。 -
增强了 API 定制功能,以支持数据缓存和片段结果缓存,从而提高 improvement.For更多信息,请参阅 Presto(Java)的配置属性 - 协调器和工作节点和 Presto(Java)的目录属性。
基础架构管理器
- 您可以在基础设施管理器页面上使用搜索功能搜索以下值:
- 数据库名称
- 注册主机名
- 由用户名创建
- 现在您可以使用铃铛图标下通知部分的“请勿打扰”切换开关来启用或禁用弹出式通知。
- 您可以在“配置”页面的“连接信息”磁贴下找到连接信息。 这些信息可以复制并下载到 JSON 片段中。
查询工作区
- 从新的下拉列表中选择所需的目录和模式,就可以通过 SQL 查询工作区对模式下的所有表运行查询,而无需指定路径
<catalog>.<schema>
。 有关更多信息,请参阅 运行 SQL 查询。
watsonx.data定价计划
- 现在,您可以在达到 2000 个资源单位的账户上限之前删除现有的精简版计划实例,然后创建一个新实例,并消耗账户中可用的剩余资源单位。 有关详细信息,请参阅 watsonx.data 简化计划。
2024 年 7 月 3 日 - 版本2.0.0
数据源的新数据类型
以下新数据类型现在可用于某些数据源。 您可以在数据管理器页面下的添加列选项。
-
BLOB
- Db2
- Teradata
- Oracle
- MySQL
- SingleStore
-
CLOB
- Db2
- Teradata
- Oracle
-
BINARY
- SQL Server
- MySQL
由于不支持数字数据类型watsonx.data,您可以使用十进制数据类型作为数字数据类型的等效替代Netezza数据源。
现在,您可以在查询工作区中使用 BLOB 和 CLOB 数据类型和 SELECT 语句来构建和运行针对数据的查询,以Oracle和SingleStore数据源。
您现在可以使用 BLOB 和 CLOB 数据类型MySQL和PostgreSQL数据源等同于 LONGTEXT、BYTEA 和 TEXT,因为这些数据类型与Presto(Java )。 这些数据类型映射到 CLOB 和 BLOBPresto(Java ) 如果数据源中存在具有 LONGTEXT、TEXT 和 BYTEA 数据类型的表。
- MySQL (CLOB 相当于 LONGTEXT)
- PostgreSQL (CLOB 相当于 TEXT)
- PostgreSQL (BLOB 相当于 BYTEA)
- Netezza(十进制相当于数字)
- Oracle(BLOB 和 CLOB 与 SELECT 语句)
- SingleStore(BLOB 和 CLOB 与 SELECT 语句)
新操作Db2数据源
您可以对 BLOB 和 CLOB 数据类型执行以下操作Db2数据源:
- 插入
- 创建
- 加拿大癌症援助协会
- ALTER
- 放置
新箭Flight service基于数据源
您现在可以通过 Arrow 使用以下数据源Flight service:
- Greenplum
- Salesforce
- MariaDB
- Apache Derby
有关详细信息,请参阅For more information, see 箭Flight service。
新数据源
您现在可以使用以下数据源:
- Cassandra
- BigQuery
- ClickHouse
- Apache Pinot
有关详细信息,请参阅For more information, see 添加数据库目录对。
检索摄取历史记录的命令
现在,您可以使用 ibm-lh get-status 检索提交的所有提取作业的状态--all-jobsCLI 命令。 您可以检索所有已提交的摄取作业的状态。 您将获得有权访问的历史记录。 有关详细信息,请参阅For more information, see ibm-lh 工具支持的选项和参数。
附加角色IBM Knowledge Catalog(国际儿童基金会)S2S授权
除了数据访问之外,IBM Knowledge CatalogS2S授权需要元数据访问和控制台 API 访问来集成watsonx.data。 为IKC服务访问配置创建了以下新角色:
- 查看者
- Metastore 查看器
Apache护林员政策
IBMwatsonx.data现在支持ApacheRanger 政策允许整合Presto引擎。 有关详细信息,请参阅For more information, see Apache护林员政策。
版本升级
- Presto(Java ) 引擎现已升级至版本0.286。
- Milvus 服务现已升级到 2.4.0 版本。 重要特征包括:
- 更好的性能(低内存利用率)
- 支持稀疏数据
- 内置 SPLADE 引擎,用于稀疏向量嵌入
- 大肠杆菌M3混合(密集+稀疏)搜索
HiveMetastore(HMS)访问watsonx.data
您现在可以获取以下元数据信息Hive通过使用 REST API 来获取 Metastore 信息,而不是从引擎详细信息中获取信息。 外部实体使用 HMS 详细信息来集成watsonx.data。 您必须具有管理员、Metastore 管理员或 Metastore 查看者角色才能运行 API。
用于数据丰富的语义自动化
数据丰富的语义自动化利用生成式人工智能IBM Knowledge Catalog更深入地了解您的数据,并通过自动丰富来增强数据,使其具有分析价值。 语义层集成仅供精简版计划用户使用,为期 30 天。 有关详细信息,请参阅For more information, see 语义自动化用于数据丰富watsonx.data。
查询优化器可提高查询性能
您现在可以使用查询优化器来提高由Presto(C++)引擎。 如果查询优化器确定优化可行,则查询将进行重写;否则,本机引擎优化优先。 有关详细信息,请参阅For more information, see 查询优化器概述。
新名称Presto引擎watsonx.data
Presto重命名为Presto(Java )。
新引擎(PrestoC++)watsonx.data
您可以配置Presto(C++)引擎(版本0.286 ) 在watsonx.data在数据源上运行 SQL 查询并获取查询的数据。 有关详细信息,请参阅For more information, seePresto(C++)概述。
使用代理访问S3和S3兼容存储桶
外部应用程序和查询引擎可以访问S3和S3兼容存储桶由watsonx.data通过S3代理人。 有关详细信息,请参阅For more information, see 使用S3代理访问S3和S3兼容存储桶。
混合大小写功能标志Presto(Java ) 引擎
混合大小写功能标志,允许在区分大小写和不区分大小写的行为之间切换Presto(Java ) 可用。 该标志默认设置为 OFF,可以在部署期间设置为 ONwatsonx.data。 有关详细信息,请参阅 Presto(Java)混合大小写支持概述。
新的存储类型Google Cloud Storage
您现在可以使用新的存储类型Google Cloud Storage。 有关详细信息,请参阅For more information, see 添加存储目录对。
2024 年 5 月 31 日-V 1.1.5
在 watsonx.data Lite 套餐中供应 Spark 引擎
现在,您可以在 watsonx.data Lite 套餐实例中添加小型 Spark 引擎 (单节点)。 有关详细信息,请参阅 watsonx.data 简化计划。
与 Spark 实验室相关的更新
- 从 Spark 实验室使用 Jupyter Notebook
: 现在,您可以在 Spark 实验室中从 VS Code Marketplace 安装 Jupyter 扩展,并使用 Jupyter 笔记本工作。 有关更多信息,请参阅 创建 Jupyter 笔记本。
- 从 Spark 实验室访问 Spark Spark UI
现在,您可以从 Spark labs 访问 Spark 用户界面(UI),监控 Spark 应用程序运行的各个方面。 有关详细信息,请参阅 从 Spark 实验室访问 Spark UI。
要为 IBM Cloud 实例供应的新区域
现在,您可以在悉尼区域供应 IBM Cloud 实例。
2024 年 4 月 30 日-V 1.1.4
新版本的 watsonx.data 已于 2024 年 4 月发布。
此发行版包含以下功能和更新:
针对 HDFS 连接的Kerberos 认证
现在,您可以对安全 Apache Hadoop Distributed File System (HDFS) 连接启用 Kerberos 认证。 有关更多信息,请参阅 HDFS。
新数据源
现在提供了以下新数据源:
- Oracle
- Amazon Redshift
- Informix
- Prometheus
有关更多信息,请参阅 数据源。
测试 SSL 连接
现在,您可以测试 MongoDB 和 SingleStore 数据源的 SSL 连接。
上载 Apache Kafka 数据源的描述文件
Apache Kafka 数据源将数据存储为生产者和使用者必须解释的字节消息。 要查询此数据,使用者必须首先将其映射到列中。 现在,您可以上载将原始数据转换为表格式的主题描述文件。 每个文件都必须是包含表定义的 JSON 文件。 要从 UI 上载这些 JSON 文件,请转至您注册的 Apache Kafka 数据库的概述页面,然后选择 添加主题 选项。 有关更多信息,请参阅 Apache Kafka。
watsonx.data
IBM® watsonx.data 现在提供以下许可计划。
- Lite 套餐
- 企业套餐
有关不同许可证套餐的更多信息,请参阅 IBM® watsonx.data 定价套餐。
Presto(Java ) 引擎版本升级
这Presto(Java ) 引擎现已升级至版本0.285.1。
暂停或恢复 Milvus
您现在可以暂停或恢复 Milvus 服务。 暂停服务可避免产生费用。
Spark 现在可用作本机引擎
除了注册外部 Spark 引擎外,您现在还可以在 IBM watsonx.data 实例上供应本机 Spark 引擎。 通过本机 Spark 引擎,您可以使用 watsonx.data UI 和 REST API 端点来完全管理 Spark 引擎配置,管理对 Spark 引擎的访问以及查看应用程序。 有关更多信息,请参阅 供应本机 Spark 引擎。
使用本机 Spark Engine 采集数据
现在,您可以使用本机 Spark 引擎提交采集作业。 更多信息,请参阅 使用不同的表格格式。
2024 年 3 月 27 日-V 1.1.3
watsonx.data 的新版本于 2024 年 3 月发布。
此发行版包含以下功能和更新:
某些数据源的新数据类型
现在,可以将 BINARY 数据类型与“查询”工作空间中的 SELECT 语句配合使用,以针对以下数据源构建和运行针对数据的查询:
- Elasticsearch
- SQL Server
- MySQL
新数据类型:BLOB和CLOB可用于 MySQL, PostgreSQL, Snowflake、SQL Server 和 Db2 数据源。 只能将这些数据类型与“查询”工作空间中的 SELECT 语句配合使用,以针对数据构建和运行查询。
使用 Iceberg 数据源的 DELETE FROM 功能删除数据
现在,您可以使用 DELETE FROM 功能从 Iceberg 数据源中的表中删除数据。
您可以使用“写入时复制”方式或“读取时合并”方式 (缺省值) 为新表指定表属性删除方式。 有关更多信息,请参阅 SQL 语句。
针对 Iceberg 数据源的 ALTER VIEW 语句
现在,可以在“查询”工作空间中使用以下 SQL 语句来针对 ALTER VIEW 的数据构建和运行查询:
ALTER VIEW 名称 RENAME TO new_name
上载 Netezza Performance Server 数据源的 SSL 证书
现在,您可以在 Netezza Performance Server 数据源中浏览和上载 SSL 证书以用于 SSL 连接。 SSL 证书的有效文件格式为 .pem,.crt 和 .cer。 您可以使用基础结构管理器中的“添加数据库/目录”对选项来上载 SSL 证书。
来自 Db2 和 Watson Query的查询数据
现在,您可以从 Watson Query 实例查询在 Db2 和虚拟化表中创建的昵称。
IBM Data Virtualization Manager for z/OS 数据源的 SSL 连接
现在,您可以通过使用“添加数据库”用户界面来保护数据库连接并对其进行加密,从而为 IBM Data Virtualization Manager for z/OS 数据源启用 SSL 连接。 选择“验证证书”以验证主机返回的 SSL 证书是否可信。 您可以选择在 SSL 证书中提供主机名。
使用 Apache Hudi 目录中的数据
现在,您可以连接到 Apache Hudi 目录并使用该目录中的数据。
将 Milvus 添加为 watsonx.data 中的一项服务
现在,您可以在 watsonx.data 中将 Milvus 作为一项服务提供,它具有以下功能:
-
供应不同的存储变体,例如入门模板,中型和大型节点。
-
为 Milvus 用户分配管理员或用户角色:现在可为 Milvus 用户提供用户访问策略。 使用访问控制用户界面,可以为 Milvus 用户分配管理员或用户角色,还可以授予、撤销或更新权限。
-
为 Milvus 配置对象存储来存储数据。 您可以添加或配置自定义水桶,并指定用户名、密码、区域和水桶 URL。
更多信息,请参阅 Milvus。
使用 ibm-lh 摄入工具批量装入数据
现在,您可以使用 ibm-lh 摄入工具,通过使用 ibm-lh-client 软件包,以非交互方式 (从 ibm-lh-tools 容器外部) 运行批处理摄入过程。 有关更多信息,请参阅 ibm-lh 命令和用法。
在 Web 控制台中使用批量采集来创建模式
现在,如果先前未创建模式,那么可以在 Web 控制台中使用批量采集过程来创建模式。
在 Apache Iceberg 表中使用时间旅行查询
现在,您可以使用 Apache Iceberg 表快照中的分支和标记来运行以下时间旅行查询:
-SELECT *FROM <table name>
FOR VERSION AS OF 'historical-tag'
-SELECT *FROM <table name>
FOR VERSION AS OF "test-branch"
无需凭据即可访问 Cloud Object Storage。 现在,您可以通过使用数据访问服务 (DAS) 端点,在没有凭据的情况下访问 Cloud Object Storage 存储桶。 有关获取 DAS 端点的更多信息,请参阅 获取 DAS 端点。
2024 年 2 月 28 日-V 1.1.2
watsonx.data 的新版本于 2024 年 2 月发布。
此发行版包含以下功能和更新:
数据源的 SSL 连接
现在,您可以通过使用 添加数据库 用户界面来保护数据库连接并对其进行加密,从而为以下数据源启用 SSL 连接:
-
Db2
-
PostgreSQL
有关更多信息,请参阅 添加数据库。
安全摄入作业历史记录
现在,用户只能查看自己的摄入作业历史记录。 管理员可以查看所有用户的摄入作业历史记录。
SQL 增强功能
现在,您可以在“查询”工作空间中使用以下 SQL 语句来针对数据构建和运行查询:
- Apache Iceberg 数据源
- CREATE VIEW
- DROP VIEW
- MongoDB 数据源
- 删除
Teradata 数据源的新数据类型 BLOB 和 CLOB
新的数据类型 BLOB 和 CLOB 可用于 Teradata 数据源。 只能将这些数据类型与“查询”工作空间中的 SELECT 语句配合使用,以针对数据构建和运行查询。
在数据采集期间创建新表
先前,您必须在 watsonx.data 中具有用于采集数据的目标表。 现在,您可以使用 数据管理器中的数据采集,直接从源数据文件 (以拼法或 CSV 格式提供) 创建新表。 您可以使用以下摄入方法来创建表:
-
使用 Iceberg 复制装入器来采集数据。
-
使用 Spark 采集数据。
对列执行 ALTER TABLE 操作
通过 Iceberg 数据源,现在可以对以下数据类型转换的列执行 ALTER TABLE 操作:
-
int 到 bigint
-
浮动到双精度
-
decimal (num1,dec_decimal) 到 decimal (num2,dec_decimal),其中 num2>num1。
通过使用已排序的文件提高查询性能
与ApacheIceberg数据源,可以生成排序后的文件,减少查询结果的延迟,提高查询性能Presto(Java )。 在每个文件的写入过程中,将对 Iceberg 表中的数据进行排序。
您可以使用 sorted_by
表属性来配置对数据进行排序的顺序。 创建表时,请指定排序所涉及的一个或多个列的数组。 要禁用此功能,请将会话属性 sorted_writing_enabled
设置为 false。
2024 年 1 月 31 日-V 1.1.1
watsonx.data 的新版本于 2024 年 1 月发布。
此发行版包含以下功能和更新:
IBM Data Virtualization Manager for z/OS® 连接器
现在,您可以使用新的 IBM Data Virtualization Manager for z/OS® 连接器来读写 IBM Z®,而无需移动,复制或变换数据。 有关更多信息,请参阅 连接到 IBM Data Virtualization Manager(DVM)数据源。
为多个 ALTER TABLE
语句启用了Teradata 连接器
Teradata 连接器现在支持 ALTER TABLE RENAME TO
,ALTER TABLE DROP COLUMN
和 ALTER TABLE RENAME COLUMN column_name TO new_column_name
语句。
支持时间旅行查询
冰山连接器Presto(Java ) 现在支持时间旅行查询。
属性 format_version
现在显示当前版本
现在,在创建 Iceberg 表时,属性 format_version
显示正确的值 (当前版本)。
2023 年 11 月 29 日-V 1.1.0
watsonx.data 的新版本已于 2023 年 11 月发布。
此发行版包含以下功能和更新:
Presto(Java ) 区分大小写的行为
这Presto(Java ) 行为从不区分大小写更改为区分大小写。 现在,您可以像在数据库中一样以原始案例格式提供对象名称。 有关详细信息,请参阅For more information, see 区分大小写的搜索配置Presto(Java )。
回滚功能
您可以使用回滚功能来回滚或前滚到 Iceberg 表的任何快照。
捕获数据定义语言 (DDL) 更改
现在,您可以使用事件侦听器来捕获和跟踪 watsonx.data 中的 DDL 更改。 有关更多信息,请参阅 捕获 DDL 更改。
使用 Spark 采集数据
现在,您可以使用由 Apache Spark 支持的 IBM Analytics Engine 在 watsonx.data 中运行摄取作业。
有关更多信息,请参阅 使用 Spark 采集数据。
与 Db2 和 Netezza Performance Server
现在,您可以在 watsonx.data 控制台中注册 Db2 或 Netezza Performance Server 引擎。
有关更多信息,请参阅 注册引擎。
新增连接器
现在,您可以在 watsonx.data 中使用连接器来建立与以下类型的数据库的连接:
- Teradata
- Delta Lake
- Elasticsearch
- SingleStoreDB
- Snowflake
有关更多信息,请参阅 添加数据库。
AWS EMR for Spark
现在,您可以从 Amazon Web Services Elastic MapReduce (AWS EMR) 运行 Spark 应用程序,以实现 watsonx.data Spark 用例:
- 数据摄取
- 数据查询
- 表维护
有关更多信息,请参阅 使用 AWS EMR for Spark 用例。
7 2023 年 7 月-V 1.0.0
watsonx.data 是一种新的开放式体系结构,用于组合数据仓库和数据湖模型的元素。 watsonx.data 上提供的一流功能和优化使其成为下一代数据分析和自动化的最佳选择。 在第一个发行版 (watsonx.data 1.0.0) 中,支持以下功能部件:
- 创建、缩放、暂停、恢复和删除Presto(Java ) 查询引擎
- 将目录与引擎关联和取消关联
- 浏览目录对象
- 添加和删除数据库/目录对
- 更新数据库凭证
- 添加和删除存储区/目录对
- 浏览存储区对象
- 装入数据
- 探索数据
- 查询数据
- 查询历史记录