通过网络控制台使用 Spark 接收数据
您可以通过网络控制台将数据导入 IBM® watsonx.data 中。 只有使用 Spark 引擎才支持通过网络控制台进行输入。
准备工作
- 添加和注册 Spark。 请参见 配置 Spark 引擎。
- 目标表需要一个连接到正在运行的 Presto 引擎的活跃的Iceberg目录。 请参阅 添加存储目录对。 存储空间必须至少具有
Writer
访问权限。 - 要获取数据,您必须至少拥有
User
访问 Presto 引擎和Spark引擎的权限。 - 要获取数据,您必须至少拥有一个
User
访问权限,并拥有目录数据权限。 请参阅 管理数据政策规则。 - 为源数据文件添加远程存储。 请参阅 添加存储目录对。
- 为源数据文件添加数据源。 请参阅 添加数据源-目录对。
- (可选) 可以在目录中为目标表创建模式。 请参阅 创建模式。
- (可选) 您还可以在模式中创建目标表。 请参阅 创建表。
- 要使您的 Spark 应用程序和摄取与watsonx.data目录和存储协同工作,您必须在服务访问中拥有 "
MetastoreAdmin
和 "DataAccess
角色,在平台访问中拥有 "Administrator
角色,请参阅 分配账户管理服务访问权限 和 管理角色和权限。
从本地系统输入数据
-
登录 IBM® watsonx.data 控制台。
-
从导航菜单中选择 Data manager,然后单击 Ingest data。
-
选择以下存储选项之一,进入下一页:
a. 本地系统:要从本地系统中选择文件。
b. 存储器:从已连接的S3兼容存储器中选择远程文件。
c. 数据源:从已连接的数据源中选择文件。
-
如果选择本地系统,请完成以下步骤:
i.将文件拖到框中或点击上传。 选定的文件列在 Selected file(s) 部分。
您可以添加多个相同文件类型的文件。 可用的文件类型选项包括CSV、Parquet、JSON、ORC和AVRO。 最大累计文件大小必须在 2 GB 以内。
ii.从下拉菜单中选择一个临时存储桶,以临时存储上传的文件。
文件在导入完成或失败时会自动从该存储中删除。 仅当从本地系统读取数据时,此功能可用。
iii.单击下一步。
iv.在 接收数据:本地 页面,您可以查看源文件的详细信息,并根据需要上传更多文件。
您可以删除单个文件,也可以使用取消全选选项删除所有文件。
v.单击要预览的特定文件的预览图标。 此操作将打开一个新的文件预览窗口,显示所选文件的表格。
vi.单击“编辑”按钮编辑列标题。
vii.根据需要修改列标题和列数据类型,以进行任何转换。 数据类型选择不正确会导致摄取错误。
viii.对于 CSV 文件,可以选择“高级”属性来自定义文件的以下解释:
第一行的标题: 如果 CSV 文件有包含列名的标题行,请选择此选项。
列分隔符: 指定 CSV 文件中用于分隔列的字符。
文件编码: 选择 CSV 文件中使用的字符编码。
行分隔符: 指定 CSV 文件中用于分隔行的字符。
转义字符: 定义 CSV 文件中用于转义特殊字符的字符。
ix.如果需要撤销更改,可以使用“取消编辑”或“重置”将列标题恢复到原始状态。
x.单击保存保存更改。
xi.在目标表部分,从选择目录列表中选择目标目录。 所选目录必须处于活动状态才能执行摄取任务。
xii.从模式选项中选择一个:
-
现有模式:将源数据导入现有模式。 在“选择模式”下拉菜单中搜索或选择目标模式。
-
新方案:在 “创建新方案”字段中输入新方案名称,通过明确点击 “创建”选项,从源数据创建新方案。
xiii.根据前面的选择,选择相应的目标表格选项。
-
现有表:将源数据导入现有表。 在“选择表格”下拉菜单中搜索或选择目标表格。
-
新表:在 “创建新表”字段中输入新的目标表名称,通过明确点击 “创建”选项,从源数据创建新表。
xiv.如有需要,请修改任务详细信息中自动生成的摄取任务 ID。
xv.从“选择发动机”列表中选择 Spark 发动机。 注册的火花发动机在此列出。
文件大小小于 2 MB 的文件将自动选择“精简摄取”,文件大小大于 2 MB 的所有文件将自动从“选择引擎”下拉列表中选择所列 Spark 引擎之一来运行摄取任务。
只有从本地系统获取数据时,才可使用精简摄取功能。
xvi.如果所选发动机是 Spark 发动机,则从列出的选项中选择预定义的作业大小。 任务大小会根据文件大小自动设置为首选选项。 用户还可以选择以下选项之一。
local:
本地配置。 配置 值 Executor 数量 1 执行程序核心 2 个 vCPU 执行程序内存 4 GB 小:
小型配置。 配置 值 驱动程序内存 2 GB 驱动程序核心 1 个 vCPU Executor 数量 1 执行程序核心 1 个 vCPU 执行程序内存 2 GB 中等:
中型配置。 配置 值 驱动程序内存 4 GB 驱动程序核心 2 个 vCPU Executor 数量 2 执行程序核心 2 个 vCPU 执行程序内存 4 GB 大号
大型配置。 配置 值 驱动程序内存 8 GB 驱动程序核心 4 个 vCPU Executor 数量 4 执行程序核心 4 个 vCPU 执行程序内存 8 GB xvii.单击“预览”查看将在数据管理器中显示的最终输出表。
如果所选目标表是现有表,则会用新摄入的数据追加或覆盖数据。 默认操作为附加
xviii.单击“编辑”,根据需要修改列标题和列数据类型,以便对目标表进行任何转换。 如果不需要,也可以恢复更改。
xix.单击“摄取”。 在 数据管理器页面的 消化历史选项卡中可以找到已提交的消化任务。
触发“打开任务详细信息”通知消息,导航至“摄取任务详细信息”。
单击“摄取历史记录”选项卡中摄取任务的取消图标,或单击摄取任务详细信息页面中的取消任务,即可取消摄取任务。
xx. 在“采集历史”选项卡中点击所需的采集作业的作业日志ID,以获取详细信息和日志。
二十一、在 “摄取历史”选项卡中点击摄取作业的 “目标”链接,即可在 “数据管理器” 页面中导航至摄取的表格。
-
从远程存储器输入数据
-
如果您选择了 仓库,请从 接收数据:存储 页面完成以下步骤:
i.从 Select storage 下拉菜单中选择一个存储桶。
您还可以单击 Add + 图标,添加新的存储桶。 有关更多信息,请参阅 添加存储。 您可以根据权限创建所有用户都能访问的永久存储连接。 在基础设施管理器页面选择创建永久连接。 您还可以选择 "创建临时连接,创建一个在摄取期间可访问的临时存储连接。 该临时存储不得在基础架构管理器页面中提供,也不得被其他用户访问。
ii.根据源数据选择所需的文件类型。 可用选项包括 CSV、Parquet、JSON、ORC 和 AVRO。
iii.从 All files 选项卡中选择要摄取的文件。 选定的文件在 Files selected 选项卡中列出。 您可以在 文件详细信息 部分查看所选文件的详细信息。
您可以添加多个相同文件类型的文件。 最大文件大小必须为 500 MB。
您可以删除单个文件,也可以使用 Unselect all 选项删除所有文件。
iv.单击要预览的特定文件的预览图标。 此操作将打开一个新的文件预览窗口,显示所选文件的表格。
v.单击“编辑”按钮编辑列标题。
vi.根据需要修改列标题和数据类型,以便进行任何转换。
vii.如果需要撤销更改,可以使用“取消编辑”或“重置”将列标题恢复到原始状态。
viii 对于 CSV 文件,您可以选择高级属性,以自定义文件的以下解释:
第一行的标题: 如果 CSV 文件有包含列名的标题行,请选择此选项。
列分隔符: 指定 CSV 文件中用于分隔列的字符。
文件编码: 选择 CSV 文件中使用的字符编码。
行分隔符: 指定 CSV 文件中用于分隔行的字符。
转义字符: 定义 CSV 文件中用于转义特殊字符的字符。
ix.单击保存保存更改。
x.在目标表窗口中,从选择目录列表中选择目标目录。 所选目录必须处于活动状态才能执行摄取任务。
xi.从模式选项中选择一个:
-
现有模式:将源数据导入现有模式。 在“选择模式”下拉菜单中搜索或选择目标模式。
-
新方案:在 “创建新方案”字段中输入新方案名称,通过明确点击 “创建”选项,从源数据创建新方案。
xii. 根据架构选择,选择相应的目标表选项。
-
现有表:将源数据导入现有表。 在“选择表格”下拉菜单中搜索或选择目标表格。
-
新表:在 “创建新表”字段中输入新的目标表名称,通过明确点击 “创建”选项,从源数据创建新表。
xiii.如果需要,请修改 任务详细信息中自动生成的摄取任务 ID。
xiv.从“选择引擎”列表中选择 Spark 引擎。 注册的火花发动机在此列出。
xv.从列出的选项中选择预定义的任务大小。 任务大小会根据文件大小自动设置为首选选项。 用户还可以选择以下选项之一。
小:
小型配置。 配置 值 驱动程序内存 2 GB 驱动程序核心 1 个 vCPU Executor 数量 1 执行程序核心 1 个 vCPU 执行程序内存 2 GB 中等:
中型配置。 配置 值 驱动程序内存 4 GB 驱动程序核心 2 个 vCPU Executor 数量 2 执行程序核心 2 个 vCPU 执行程序内存 4 GB 大号
大型配置。 配置 值 驱动程序内存 8 GB 驱动程序核心 4 个 vCPU Executor 数量 4 执行程序核心 4 个 vCPU 执行程序内存 8 GB xvi.Click 预览查看数据管理器中显示的最终输出表。
如果所选目标表是现有表,则会用新摄入的数据追加或覆盖数据。 默认操作为附加
xvii.单击“编辑”,根据需要修改列标题和列数据类型,以便对目标表进行任何转换。 如果不需要,也可以恢复更改。
xviii.点击摄入。 在 数据管理器页面的 消化历史选项卡中可以找到已提交的消化任务。
触发“打开任务详细信息”通知消息,导航至“摄取任务详细信息”。
单击“摄取历史记录”选项卡中摄取任务的取消图标,或单击摄取任务详细信息页面中的取消任务,即可取消摄取任务。
十九、在“采集历史”选项卡中点击所需的采集作业的作业日志ID,以获取详细信息和日志。
xx. 在 “摄取历史”选项卡中点击摄取作业的 “目标”链接,即可在 “数据管理器” 页面中导航至摄取的表格。
-
从数据库获取数据
-
如果您选择了 数据库,请从 接收数据:数据库 页面完成以下步骤:
i.从 选择数据库下拉菜单中选择一个数据库。
您还可以单击添加 + 图标来添加新数据库。 有关详细信息,请参阅 添加数据库。 您可以在基础结构管理器页面选择创建永久连接,根据权限创建所有用户都能访问的永久数据库连接。 您还可以通过选择创建临时连接,创建一个在摄取期间可访问的临时数据库连接。 该临时数据库不得出现在基础结构管理器页面上,也不能被其他用户访问。
ii.从 Schemas 窗口选择模式。
iii.从“浏览表”部分选择要摄取的表。
iv.在目标表窗口中,从选择目录列表中选择目标目录。 所选目录必须处于活动状态才能执行摄取任务。
v.从模式选项中选择一个:
-
现有模式:将源数据导入现有模式。 在“选择模式”下拉菜单中搜索或选择目标模式。
-
新方案:在 “创建新方案”字段中输入新方案名称,通过明确点击 “创建”选项,从源数据创建新方案。
vi.根据选择(如前所述)选择相应的目标表选项。
-
现有表:将源数据导入现有表。 在“选择表格”下拉菜单中搜索或选择目标表格。
-
新表:在 “创建新表”字段中输入新的目标表名称,通过明确点击 “创建”选项,从源数据创建新表。
vii.如有需要,请修改任务详细信息中自动生成的摄取任务 ID。
viii.从“选择发动机”列表中选择 Spark 发动机。 注册的火花发动机在此列出。
ix.从列出的选项中选择预定义的任务大小。 任务大小会根据文件大小自动设置为首选选项。 用户还可以选择以下选项之一。
小:
小型配置。 配置 值 驱动程序内存 2 GB 驱动程序核心 1 个 vCPU Executor 数量 1 执行程序核心 1 个 vCPU 执行程序内存 2 GB 中等:
中型配置。 配置 值 驱动程序内存 4 GB 驱动程序核心 2 个 vCPU Executor 数量 2 执行程序核心 2 个 vCPU 执行程序内存 4 GB 大号
大型配置。 配置 值 驱动程序内存 8 GB 驱动程序核心 4 个 vCPU Executor 数量 4 执行程序核心 4 个 vCPU 执行程序内存 8 GB x.Click 预览查看数据管理器中显示的最终输出表。
如果所选目标表是现有表,则会用新摄入的数据追加或覆盖数据。 默认操作为附加
xi.单击“编辑”,根据需要修改列标题和列数据类型,以便对目标表进行任何转换。 如果不需要,也可以恢复更改。
xii.点击摄入。 在 数据管理器页面的 消化历史选项卡中可以找到已提交的消化任务。
触发“打开任务详细信息”通知消息,导航至“摄取任务详细信息”。
单击“摄取历史记录”选项卡中摄取任务的取消图标,或单击摄取任务详细信息页面中的取消任务,即可取消摄取任务。
十三、在 “采集历史”选项卡中点击所需采集作业的作业日志ID,获取详细信息和日志。
xiv. 在“摄取历史”选项卡中点击摄取作业的 “目标”链接,即可在 “数据管理器” 页面中导航至摄取的表格。
-
相关应用程序接口
如需了解相关API的信息,请参阅