关于数据采集

数据导入是将数据导入并加载到 IBM® watsonx.data 的过程。从 watsonx.data 的用户界面 (UI)，您可以使用 数据管理员 页面中的 接收数据 模块来安全、轻松地加载数据。此外，您还可以使用 Create table from file 选项，输入本地或远程数据文件以创建表格。

将数据文件采集到 watsonx.data时，将在运行查询时生成并推断表模式。要摄取的文件必须具有相同的格式类型和模式。watsonx.data会根据要摄取的源文件自动发现模式。

以下是数据摄取的一些要求或行为：

不支持模式演进。
目标表必须是冰山格式表。
支持 IBM Storage Ceph、IBM Cloud Object Storage (COS)、AWS S3 和 MinIO 对象存储。
不支持对象存储器的 pathStyleAccess 属性。
支持 Parquet、CSV、JSON、ORC 和 AVRO 文件格式作为源数据文件。
本地摄取文件的累计大小最大限制必须在 500 MB 以内。
无法预览超过 2 MB 的 Parquet、JSON、AVRO 和 ORC 文件，但仍可成功摄取。
用户界面不应预览具有复杂嵌套对象和数组的 JSON 文件。
复杂的 JSON 文件应按原样摄取，以数组作为表项。为了优化数据可视化和分析，不建议使用这种方法。
JSON 文件中的键必须用引号括起来，以便正确解析和解释。

通过 CLI 装入或摄入数据

可以使用 ibm-lh 工具运行 watsonx.data 中的采集作业。必须从 ibm-lh-client 中拉取该工具并将其安装在本地系统中，才能通过 CLI 运行采集作业。有关安装 ibm-lh-client 软件包和使用 ibm-lh 工具进行摄入的更多详细信息和指示信息，请参阅安装 ibm-lh-client 和设置 ibm-lh 命令行实用程序。

ibm-lh 工具支持以下功能:

根据源文件或目标表自动发现模式。
CSV 文件的高级表配置选项:
- 定界符
- 头
- 文件编码
- 行定界符
- 转义字符
输入单个、多个文件或单个文件夹（无子文件夹）的 S3 和本地 Parquet 文件。
输入单个、多个文件或单个文件夹（无子文件夹）的 S3 和本地 CSV 文件。