关于数据采集
数据导入是将数据导入并加载到 IBM® watsonx.data 的过程。 从 watsonx.data 的用户界面 (UI),您可以使用 数据管理员 页面中的 接收数据 模块来安全、轻松地加载数据。 此外,您还可以使用 Create table from file 选项,输入本地或远程数据文件以创建表格。
将数据文件采集到 watsonx.data时,将在运行查询时生成并推断表模式。 要摄取的文件必须具有相同的格式类型和模式。watsonx.data会根据要摄取的源文件自动发现模式。
以下是数据摄取的一些要求或行为:
- 不支持模式演进。
- 目标表必须是冰山格式表。
- 支持 IBM Storage Ceph、IBM Cloud Object Storage (COS)、AWS S3 和 MinIO 对象存储。
- 不支持对象存储器的
pathStyleAccess
属性。 - 支持 Parquet、CSV、JSON、ORC 和 AVRO 文件格式作为源数据文件。
- 本地摄取文件的累计大小最大限制必须在 500 MB 以内。
- 无法预览超过 2 MB 的 Parquet、JSON、AVRO 和 ORC 文件,但仍可成功摄取。
- 用户界面不应预览具有复杂嵌套对象和数组的 JSON 文件。
- 复杂的 JSON 文件应按原样摄取,以数组作为表项。 为了优化数据可视化和分析,不建议使用这种方法。
- JSON 文件中的键必须用引号括起来,以便正确解析和解释。
通过 CLI 装入或摄入数据
可以使用 ibm-lh 工具运行 watsonx.data 中的采集作业。 必须从 ibm-lh-client
中拉取该工具并将其安装在本地系统中,才能通过 CLI 运行采集作业。 有关安装 ibm-lh-client
软件包和使用 ibm-lh 工具进行摄入的更多详细信息和指示信息,请参阅 安装 ibm-lh-client 和 设置 ibm-lh 命令行实用程序。
ibm-lh 工具支持以下功能:
-
根据源文件或目标表自动发现模式。
-
CSV 文件的高级表配置选项:
- 定界符
- 头
- 文件编码
- 行定界符
- 转义字符
-
输入单个、多个文件或单个文件夹(无子文件夹)的 S3 和本地 Parquet 文件。
-
输入单个、多个文件或单个文件夹(无子文件夹)的 S3 和本地 CSV 文件。