IBM Cloud Docs
通过网络控制台使用 Spark 接收数据

通过网络控制台使用 Spark 接收数据

您可以通过网络控制台将数据导入 IBM® watsonx.data 中。 只有使用 Spark 引擎才支持通过网络控制台进行输入。

准备工作

  • 添加和注册 Spark。 请参见 配置 Spark 引擎
  • 目标表需要一个连接到正在运行的 Presto 引擎的活跃的Iceberg目录。 请参阅 添加存储目录对。 存储空间必须至少具有 Writer 访问权限。
  • 要获取数据,您必须至少拥有 User 访问 Presto 引擎和Spark引擎的权限。
  • 要获取数据,您必须至少拥有一个 User 访问权限,并拥有目录数据权限。 请参阅 管理数据政策规则
  • 为源数据文件添加远程存储。 请参阅 添加存储目录对
  • 为源数据文件添加数据源。 请参阅 添加数据源-目录对
  • (可选) 可以在目录中为目标表创建模式。 请参阅 创建模式
  • (可选) 您还可以在模式中创建目标表。 请参阅 创建表
  • 要使您的 Spark 应用程序和摄取与watsonx.data目录和存储协同工作,您必须在服务访问中拥有 "MetastoreAdmin 和 "DataAccess 角色,在平台访问中拥有 "Administrator 角色,请参阅 分配账户管理服务访问权限管理角色和权限

从本地系统输入数据

  1. 登录 IBM® watsonx.data 控制台。

  2. 从导航菜单中选择 Data manager,然后单击 Ingest data

  3. 选择以下存储选项之一,进入下一页:

    a. 本地系统:要从本地系统中选择文件。

    b. 存储器:从已连接的S3兼容存储器中选择远程文件。

    c. 数据源:从已连接的数据源中选择文件。

  4. 如果选择本地系统,请完成以下步骤:

    i.将文件拖到框中或点击上传。 选定的文件列在 Selected file(s) 部分。

    您可以添加多个相同文件类型的文件。 可用的文件类型选项包括CSV、Parquet、JSON、ORC和AVRO。 最大累计文件大小必须在 2 GB 以内。

    ii.从下拉菜单中选择一个临时存储桶,以临时存储上传的文件。

    文件在导入完成或失败时会自动从该存储中删除。 仅当从本地系统读取数据时,此功能可用。

    iii.单击下一步

    iv.在 接收数据:本地 页面,您可以查看源文件的详细信息,并根据需要上传更多文件。

    您可以删除单个文件,也可以使用取消全选选项删除所有文件。

    v.单击要预览的特定文件的预览图标。 此操作将打开一个新的文件预览窗口,显示所选文件的表格。

    vi.单击“编辑”按钮编辑列标题。

    vii.根据需要修改列标题和列数据类型,以进行任何转换。 数据类型选择不正确会导致摄取错误。

    viii.对于 CSV 文件,可以选择“高级”属性来自定义文件的以下解释:

    第一行的标题: 如果 CSV 文件有包含列名的标题行,请选择此选项。

    列分隔符: 指定 CSV 文件中用于分隔列的字符。

    文件编码: 选择 CSV 文件中使用的字符编码。

    行分隔符: 指定 CSV 文件中用于分隔行的字符。

    转义字符: 定义 CSV 文件中用于转义特殊字符的字符。

    ix.如果需要撤销更改,可以使用“取消编辑”或“重置”将列标题恢复到原始状态。

    x.单击保存保存更改。

    xi.在目标表部分,从选择目录列表中选择目标目录。 所选目录必须处于活动状态才能执行摄取任务。

    xii.从模式选项中选择一个:

    1. 现有模式:将源数据导入现有模式。 在“选择模式”下拉菜单中搜索或选择目标模式。

    2. 新方案:在 “创建新方案”字段中输入新方案名称,通过明确点击 “创建”选项,从源数据创建新方案。

    xiii.根据前面的选择,选择相应的目标表格选项。

    1. 现有表:将源数据导入现有表。 在“选择表格”下拉菜单中搜索或选择目标表格。

    2. 新表:在 “创建新表”字段中输入新的目标表名称,通过明确点击 “创建”选项,从源数据创建新表。

    xiv.如有需要,请修改任务详细信息中自动生成的摄取任务 ID。

    xv.从“选择发动机”列表中选择 Spark 发动机。 注册的火花发动机在此列出。

    文件大小小于 2 MB 的文件将自动选择“精简摄取”,文件大小大于 2 MB 的所有文件将自动从“选择引擎”下拉列表中选择所列 Spark 引擎之一来运行摄取任务。

    只有从本地系统获取数据时,才可使用精简摄取功能。

    xvi.如果所选发动机是 Spark 发动机,则从列出的选项中选择预定义的作业大小。 任务大小会根据文件大小自动设置为首选选项。 用户还可以选择以下选项之一。

    local:

    本地配置。
    配置
    Executor 数量 1
    执行程序核心 2 个 vCPU
    执行程序内存 4 GB

    小:

    小型配置。
    配置
    驱动程序内存 2 GB
    驱动程序核心 1 个 vCPU
    Executor 数量 1
    执行程序核心 1 个 vCPU
    执行程序内存 2 GB

    中等:

    中型配置。
    配置
    驱动程序内存 4 GB
    驱动程序核心 2 个 vCPU
    Executor 数量 2
    执行程序核心 2 个 vCPU
    执行程序内存 4 GB

    大号

    大型配置。
    配置
    驱动程序内存 8 GB
    驱动程序核心 4 个 vCPU
    Executor 数量 4
    执行程序核心 4 个 vCPU
    执行程序内存 8 GB

    xvii.单击“预览”查看将在数据管理器中显示的最终输出表。

    如果所选目标表是现有表,则会用新摄入的数据追加或覆盖数据。 默认操作为附加

    xviii.单击“编辑”,根据需要修改列标题和列数据类型,以便对目标表进行任何转换。 如果不需要,也可以恢复更改。

    xix.单击“摄取”。 在 数据管理器页面的 消化历史选项卡中可以找到已提交的消化任务。

    触发“打开任务详细信息”通知消息,导航至“摄取任务详细信息”。

    单击“摄取历史记录”选项卡中摄取任务的取消图标,或单击摄取任务详细信息页面中的取消任务,即可取消摄取任务。

    xx. 在“采集历史”选项卡中点击所需的采集作业的作业日志ID,以获取详细信息和日志。

    二十一、在 “摄取历史”选项卡中点击摄取作业的 “目标”链接,即可在 “数据管理器” 页面中导航至摄取的表格。

从远程存储器输入数据

  1. 如果您选择了 仓库,请从 接收数据:存储 页面完成以下步骤:

    i.从 Select storage 下拉菜单中选择一个存储桶。

    您还可以单击 Add + 图标,添加新的存储桶。 有关更多信息,请参阅 添加存储。 您可以根据权限创建所有用户都能访问的永久存储连接。 在基础设施管理器页面选择创建永久连接。 您还可以选择 "创建临时连接,创建一个在摄取期间可访问的临时存储连接。 该临时存储不得在基础架构管理器页面中提供,也不得被其他用户访问。

    ii.根据源数据选择所需的文件类型。 可用选项包括 CSV、Parquet、JSON、ORC 和 AVRO。

    iii.从 All files 选项卡中选择要摄取的文件。 选定的文件在 Files selected 选项卡中列出。 您可以在 文件详细信息 部分查看所选文件的详细信息。

    您可以添加多个相同文件类型的文件。 最大文件大小必须为 500 MB。

    您可以删除单个文件,也可以使用 Unselect all 选项删除所有文件。

    iv.单击要预览的特定文件的预览图标。 此操作将打开一个新的文件预览窗口,显示所选文件的表格。

    v.单击“编辑”按钮编辑列标题。

    vi.根据需要修改列标题和数据类型,以便进行任何转换。

    vii.如果需要撤销更改,可以使用“取消编辑”或“重置”将列标题恢复到原始状态。

    viii 对于 CSV 文件,您可以选择高级属性,以自定义文件的以下解释:

    第一行的标题: 如果 CSV 文件有包含列名的标题行,请选择此选项。

    列分隔符: 指定 CSV 文件中用于分隔列的字符。

    文件编码: 选择 CSV 文件中使用的字符编码。

    行分隔符: 指定 CSV 文件中用于分隔行的字符。

    转义字符: 定义 CSV 文件中用于转义特殊字符的字符。

    ix.单击保存保存更改。

    x.在目标表窗口中,从选择目录列表中选择目标目录。 所选目录必须处于活动状态才能执行摄取任务。

    xi.从模式选项中选择一个:

    1. 现有模式:将源数据导入现有模式。 在“选择模式”下拉菜单中搜索或选择目标模式。

    2. 新方案:在 “创建新方案”字段中输入新方案名称,通过明确点击 “创建”选项,从源数据创建新方案。

    xii. 根据架构选择,选择相应的目标表选项。

    1. 现有表:将源数据导入现有表。 在“选择表格”下拉菜单中搜索或选择目标表格。

    2. 新表:在 “创建新表”字段中输入新的目标表名称,通过明确点击 “创建”选项,从源数据创建新表。

    xiii.如果需要,请修改 任务详细信息中自动生成的摄取任务 ID。

    xiv.从“选择引擎”列表中选择 Spark 引擎。 注册的火花发动机在此列出。

    xv.从列出的选项中选择预定义的任务大小。 任务大小会根据文件大小自动设置为首选选项。 用户还可以选择以下选项之一。

    小:

    小型配置。
    配置
    驱动程序内存 2 GB
    驱动程序核心 1 个 vCPU
    Executor 数量 1
    执行程序核心 1 个 vCPU
    执行程序内存 2 GB

    中等:

    中型配置。
    配置
    驱动程序内存 4 GB
    驱动程序核心 2 个 vCPU
    Executor 数量 2
    执行程序核心 2 个 vCPU
    执行程序内存 4 GB

    大号

    大型配置。
    配置
    驱动程序内存 8 GB
    驱动程序核心 4 个 vCPU
    Executor 数量 4
    执行程序核心 4 个 vCPU
    执行程序内存 8 GB

    xvi.Click 预览查看数据管理器中显示的最终输出表。

    如果所选目标表是现有表,则会用新摄入的数据追加或覆盖数据。 默认操作为附加

    xvii.单击“编辑”,根据需要修改列标题和列数据类型,以便对目标表进行任何转换。 如果不需要,也可以恢复更改。

    xviii.点击摄入。 在 数据管理器页面的 消化历史选项卡中可以找到已提交的消化任务。

    触发“打开任务详细信息”通知消息,导航至“摄取任务详细信息”。

    单击“摄取历史记录”选项卡中摄取任务的取消图标,或单击摄取任务详细信息页面中的取消任务,即可取消摄取任务。

    十九、在“采集历史”选项卡中点击所需的采集作业的作业日志ID,以获取详细信息和日志。

    xx. 在 “摄取历史”选项卡中点击摄取作业的 “目标”链接,即可在 “数据管理器” 页面中导航至摄取的表格。

从数据库获取数据

  1. 如果您选择了 数据库,请从 接收数据:数据库 页面完成以下步骤:

    i.从 选择数据库下拉菜单中选择一个数据库。

    您还可以单击添加 + 图标来添加新数据库。 有关详细信息,请参阅 添加数据库。 您可以在基础结构管理器页面选择创建永久连接,根据权限创建所有用户都能访问的永久数据库连接。 您还可以通过选择创建临时连接,创建一个在摄取期间可访问的临时数据库连接。 该临时数据库不得出现在基础结构管理器页面上,也不能被其他用户访问。

    ii.从 Schemas 窗口选择模式。

    iii.从“浏览表”部分选择要摄取的表。

    iv.在目标表窗口中,从选择目录列表中选择目标目录。 所选目录必须处于活动状态才能执行摄取任务。

    v.从模式选项中选择一个:

    1. 现有模式:将源数据导入现有模式。 在“选择模式”下拉菜单中搜索或选择目标模式。

    2. 新方案:在 “创建新方案”字段中输入新方案名称,通过明确点击 “创建”选项,从源数据创建新方案。

    vi.根据选择(如前所述)选择相应的目标表选项。

    1. 现有表:将源数据导入现有表。 在“选择表格”下拉菜单中搜索或选择目标表格。

    2. 新表:在 “创建新表”字段中输入新的目标表名称,通过明确点击 “创建”选项,从源数据创建新表。

    vii.如有需要,请修改任务详细信息中自动生成的摄取任务 ID。

    viii.从“选择发动机”列表中选择 Spark 发动机。 注册的火花发动机在此列出。

    ix.从列出的选项中选择预定义的任务大小。 任务大小会根据文件大小自动设置为首选选项。 用户还可以选择以下选项之一。

    小:

    小型配置。
    配置
    驱动程序内存 2 GB
    驱动程序核心 1 个 vCPU
    Executor 数量 1
    执行程序核心 1 个 vCPU
    执行程序内存 2 GB

    中等:

    中型配置。
    配置
    驱动程序内存 4 GB
    驱动程序核心 2 个 vCPU
    Executor 数量 2
    执行程序核心 2 个 vCPU
    执行程序内存 4 GB

    大号

    大型配置。
    配置
    驱动程序内存 8 GB
    驱动程序核心 4 个 vCPU
    Executor 数量 4
    执行程序核心 4 个 vCPU
    执行程序内存 8 GB

    x.Click 预览查看数据管理器中显示的最终输出表。

    如果所选目标表是现有表,则会用新摄入的数据追加或覆盖数据。 默认操作为附加

    xi.单击“编辑”,根据需要修改列标题和列数据类型,以便对目标表进行任何转换。 如果不需要,也可以恢复更改。

    xii.点击摄入。 在 数据管理器页面的 消化历史选项卡中可以找到已提交的消化任务。

    触发“打开任务详细信息”通知消息,导航至“摄取任务详细信息”。

    单击“摄取历史记录”选项卡中摄取任务的取消图标,或单击摄取任务详细信息页面中的取消任务,即可取消摄取任务。

    十三、在 “采集历史”选项卡中点击所需采集作业的作业日志ID,获取详细信息和日志。

    xiv. 在“摄取历史”选项卡中点击摄取作业的 “目标”链接,即可在 “数据管理器” 页面中导航至摄取的表格。

相关应用程序接口

如需了解相关API的信息,请参阅