IBM Cloud Docs
正在创建表

正在创建表

您可以使用 Web 控制台从“数据管理器”页面生成,配置和运行 DDL。

准备工作

  • 必须创建一个方案。 参见 创建svchema
  • 添加并注册 IBM Analytics Engine (Spark)。 参见 火花塞发动机的维护
  • 目标表需要一个与正在运行的 Presto 引擎连接的活跃的Iceberg目录。 请参阅 添加存储目录对。 存储空间必须至少具有 Writer 访问权限。
  • 要获取数据,您必须至少拥有 User 访问 Presto 引擎和Spark引擎的权限。

过程

  1. 登录 IBM® watsonx.data 控制台。

  2. 从导航菜单中选择 数据管理器,单击 浏览数据

  3. 引擎 菜单中选择引擎。 将列出与所选引擎关联的目录。

  4. 有两种方法可以将文件导入到表中。 选择所需选项。

    选项 1: 要将文件导入到目录下的任何可用模式,请执行以下步骤:

    1. 单击“创建”下拉列表。
    2. 单击 根据文件创建表。 将打开“根据文件创建表”页面。
    3. 转至步骤 5。

    选项 2: 要将文件导入到目录下的特定模式,请执行以下步骤:

    1. 在目录下选择要导入文件以创建表的模式。
    2. 单击所选模式的溢出菜单,然后选择 从文件创建表。 将打开“根据文件创建表”页面。
    3. 转至步骤 5。
  5. 将文件拖到框中或点击上传。 所选文件列在“所选文件”部分。

    您可以添加多个相同文件类型的文件。 可用的文件类型选项有 CSV、Parquet、JSON、ORC 和 AVRO。 最大累计文件大小必须在 500 MB 以内。

  6. 从下拉菜单中选择一个临时存储桶,以临时存储上传的文件。

    在摄取完成或失败后,文件会自动从该存储器中删除。 只有从本地系统获取数据时才可用。

  7. 单击下一步

  8. 接收数据:本地 页面,您可以查看源文件的详细信息,并根据需要上传更多文件。

    您可以删除单个文件,也可以使用 全部取消选择 选项删除所有文件。

  9. 单击要预览的特定文件的预览图标。 此操作将打开一个新的文件预览窗口,显示所选文件的表格。

  10. 单击“编辑”按钮编辑列标题。

  11. 根据需要修改列标题和列数据类型,以进行任何转换。 数据类型选择不正确会导致摄取错误。

  12. 对于 CSV 文件,您可以选择“高级属性”来自定义文件解释,以实现以下功能:

    第一行标题: 如果 CSV 文件有包含列名的标题行,请选择此选项。

    列分隔符: 指定 CSV 文件中用于分隔列的字符。

    文件编码: 选择 CSV 文件中使用的字符编码。

    行分隔符: 指定 CSV 文件中用于分隔行的字符。

    转义字符: 定义 CSV 文件中用于转义特殊字符的字符。

  13. 如果需要撤销更改,可以使用“取消编辑”或“重置”将列标题恢复到原始状态。

  14. 单击保存保存更改。

  15. 目标表部分,从选择目录列表中选择目标目录。 所选目录必须处于活动状态才能执行摄取任务。

  16. 从模式选项中选择一个:

    1. 现有模式:将源数据导入现有模式。 搜索或选择在选择模式或输入新模式名称下拉菜单中列出的目标模式。

    2. 新模式:在 选择模式或输入新模式名称 字段中输入新模式名称,并明确单击 + 新建:<new schema name> 从源数据创建新模式。

  17. 根据前面的选择,选择相应的目标表格选项。

    1. 现有表:将源数据导入现有表。 搜索或选择在“选择表”或“输入新表名”下拉菜单中列出的目标表。

    2. 新建表:在 选择表格或输入新表格名称 中输入一个新的目标表名称,然后明确单击 + 新建:<new table name> 从源数据创建一个新表。

  18. 如有需要,请修改任务详细信息中自动生成的摄取任务 ID。

  19. 选择引擎列表中选择 IBM Analytics Engine (Spark)。 注册的火花发动机在此列出。

    文件大小小于 2 MB 的文件将自动选择“精简摄取”,文件大小大于 2 MB 的所有文件将自动从“选择引擎”下拉列表中选择所列 Spark 引擎之一来运行摄取任务。

    只有从本地系统获取数据时,才可使用精简摄取功能。

  20. 如果所选发动机是火花发动机,则从列出的选项中选择预定义的作业大小。 任务大小会根据文件大小自动设置为首选选项。 用户还可以选择以下选项之一。

    local:

    本地配置。
    配置
    Executor 数量 1
    执行程序核心 2 个 vCPU
    执行程序内存 4 GB

    小:

    小型配置。
    配置
    驱动程序内存 2 GB
    驱动程序核心 1 个 vCPU
    Executor 数量 1
    执行程序核心 1 个 vCPU
    执行程序内存 2 GB

    中等:

    中型配置。
    配置
    驱动程序内存 4 GB
    驱动程序核心 2 个 vCPU
    Executor 数量 2
    执行程序核心 2 个 vCPU
    执行程序内存 4 GB

    大号

    大型配置。
    配置
    驱动程序内存 8 GB
    驱动程序核心 4 个 vCPU
    Executor 数量 4
    执行程序核心 4 个 vCPU
    执行程序内存 8 GB
  21. 单击预览查看将在数据管理器中显示的最终输出表。

    如果所选目标表是现有表,则会用新摄入的数据追加或覆盖数据。 默认操作为附加

  22. 单击“编辑”,根据需要修改列标题和列数据类型,以便对目标表进行任何转换。 如果不需要,也可以恢复更改。

  23. 单击“摄取”。 已提交的摄取任务可在数据管理器页面的摄取历史选项卡中找到。

    触发“打开任务详细信息”通知消息,导航至“摄取任务详细信息”。

    单击“摄取历史记录”选项卡中摄取任务的取消图标,或单击摄取任务详细信息页面中的取消任务,即可取消摄取任务。

相关应用程序接口

如需了解相关API的信息,请参阅