IBM Cloud Docs
关于数据采集

关于数据采集

数据导入是将数据导入并加载到 IBM® watsonx.data 的过程。 从 watsonx.data 的用户界面 (UI),您可以使用 数据管理员 页面中的 接收数据 模块来安全、轻松地加载数据。 此外,您还可以使用 Create table from file 选项,输入本地或远程数据文件以创建表格。

将数据文件采集到 watsonx.data时,将在运行查询时生成并推断表模式。 要摄取的文件必须具有相同的格式类型和模式。watsonx.data会根据要摄取的源文件自动发现模式。

以下是数据摄取的一些要求或行为:

  • 不支持模式演进。
  • 目标表必须是冰山格式表。
  • 支持 IBM Storage Ceph、IBM Cloud Object Storage (COS)、AWS S3 和 MinIO 对象存储。
  • 不支持对象存储器的 pathStyleAccess 属性。
  • 支持 Parquet、CSV、JSON、ORC 和 AVRO 文件格式作为源数据文件。
  • 本地摄取文件的累计大小最大限制必须在 500 MB 以内。
  • 无法预览超过 2 MB 的 Parquet、JSON、AVRO 和 ORC 文件,但仍可成功摄取。
  • 用户界面不应预览具有复杂嵌套对象和数组的 JSON 文件。
  • 复杂的 JSON 文件应按原样摄取,以数组作为表项。 为了优化数据可视化和分析,不建议使用这种方法。
  • JSON 文件中的键必须用引号括起来,以便正确解析和解释。

通过 CLI 装入或摄入数据

可以使用 ibm-lh 工具运行 watsonx.data 中的采集作业。 必须从 ibm-lh-client 中拉取该工具并将其安装在本地系统中,才能通过 CLI 运行采集作业。 有关安装 ibm-lh-client 软件包和使用 ibm-lh 工具进行摄入的更多详细信息和指示信息,请参阅 安装 ibm-lh-client设置 ibm-lh 命令行实用程序

ibm-lh 工具支持以下功能:

  • 根据源文件或目标表自动发现模式。

  • CSV 文件的高级表配置选项:

    • 定界符
    • 文件编码
    • 行定界符
    • 转义字符
  • 输入单个、多个文件或单个文件夹(无子文件夹)的 S3 和本地 Parquet 文件。

  • 输入单个、多个文件或单个文件夹(无子文件夹)的 S3 和本地 CSV 文件。