通过网络控制台使用 Spark 接收数据

您可以通过网络控制台将数据导入 IBM® watsonx.data 中。只有使用 Spark 引擎才支持通过网络控制台进行输入。

准备工作

添加和注册 Spark。请参见配置 Spark 引擎。
目标表需要一个连接到正在运行的 Presto 引擎的活跃的Iceberg目录。请参阅添加存储目录对。存储空间必须至少具有 Writer 访问权限。
要获取数据，您必须至少拥有 User 访问 Presto 引擎和Spark引擎的权限。
要获取数据，您必须至少拥有一个 User 访问权限，并拥有目录数据权限。请参阅管理数据政策规则。
为源数据文件添加远程存储。请参阅添加存储目录对。
为源数据文件添加数据源。请参阅添加数据源-目录对。
(可选) 可以在目录中为目标表创建模式。请参阅创建模式。
(可选) 您还可以在模式中创建目标表。请参阅创建表。
要使您的 Spark 应用程序和摄取与watsonx.data目录和存储协同工作，您必须在服务访问中拥有 "MetastoreAdmin 和 "DataAccess 角色，在平台访问中拥有 "Administrator 角色，请参阅分配账户管理服务访问权限和管理角色和权限。

从本地系统输入数据

登录 IBM® watsonx.data 控制台。
从导航菜单中选择 Data manager，然后单击 Ingest data。
选择以下存储选项之一，进入下一页：

a. 本地系统：要从本地系统中选择文件。

b. 存储器：从已连接的S3兼容存储器中选择远程文件。

c. 数据源：从已连接的数据源中选择文件。

如果选择本地系统，请完成以下步骤：

i.将文件拖到框中或点击上传。选定的文件列在 Selected file(s) 部分。

您可以添加多个相同文件类型的文件。可用的文件类型选项包括CSV、Parquet、JSON、ORC和AVRO。最大累计文件大小必须在 2 GB 以内。

ii.从下拉菜单中选择一个临时存储桶，以临时存储上传的文件。

文件在导入完成或失败时会自动从该存储中删除。仅当从本地系统读取数据时，此功能可用。

iii.单击下一步。

iv.在 接收数据：本地 页面，您可以查看源文件的详细信息，并根据需要上传更多文件。

您可以删除单个文件，也可以使用取消全选选项删除所有文件。

v.单击要预览的特定文件的预览图标。此操作将打开一个新的文件预览窗口，显示所选文件的表格。

vi.单击“编辑”按钮编辑列标题。

vii.根据需要修改列标题和列数据类型，以进行任何转换。数据类型选择不正确会导致摄取错误。

viii.对于 CSV 文件，可以选择“高级”属性来自定义文件的以下解释：

第一行的标题： 如果 CSV 文件有包含列名的标题行，请选择此选项。

列分隔符： 指定 CSV 文件中用于分隔列的字符。

文件编码： 选择 CSV 文件中使用的字符编码。

行分隔符： 指定 CSV 文件中用于分隔行的字符。

转义字符： 定义 CSV 文件中用于转义特殊字符的字符。

ix.如果需要撤销更改，可以使用“取消编辑”或“重置”将列标题恢复到原始状态。

x.单击保存保存更改。

xi.在目标表部分，从选择目录列表中选择目标目录。所选目录必须处于活动状态才能执行摄取任务。

xii.从模式选项中选择一个：

现有模式：将源数据导入现有模式。 在“选择模式”下拉菜单中搜索或选择目标模式。
新方案：在 “创建新方案”字段中输入新方案名称，通过明确点击 “创建”选项，从源数据创建新方案。

xiii.根据前面的选择，选择相应的目标表格选项。

现有表：将源数据导入现有表。 在“选择表格”下拉菜单中搜索或选择目标表格。
新表：在 “创建新表”字段中输入新的目标表名称，通过明确点击 “创建”选项，从源数据创建新表。

xiv.如有需要，请修改任务详细信息中自动生成的摄取任务 ID。

xv.从“选择发动机”列表中选择 Spark 发动机。注册的火花发动机在此列出。

文件大小小于 2 MB 的文件将自动选择“精简摄取”，文件大小大于 2 MB 的所有文件将自动从“选择引擎”下拉列表中选择所列 Spark 引擎之一来运行摄取任务。

只有从本地系统获取数据时，才可使用精简摄取功能。

xvi.如果所选发动机是 Spark 发动机，则从列出的选项中选择预定义的作业大小。任务大小会根据文件大小自动设置为首选选项。用户还可以选择以下选项之一。

local:

本地配置。
配置	值
Executor 数量	1
执行程序核心	2 个 vCPU
执行程序内存	4 GB

小：

小型配置。
配置	值
驱动程序内存	2 GB
驱动程序核心	1 个 vCPU
Executor 数量	1
执行程序核心	1 个 vCPU
执行程序内存	2 GB

中等：

中型配置。
配置	值
驱动程序内存	4 GB
驱动程序核心	2 个 vCPU
Executor 数量	2
执行程序核心	2 个 vCPU
执行程序内存	4 GB

大号

大型配置。
配置	值
驱动程序内存	8 GB
驱动程序核心	4 个 vCPU
Executor 数量	4
执行程序核心	4 个 vCPU
执行程序内存	8 GB

xvii.单击“预览”查看将在数据管理器中显示的最终输出表。

如果所选目标表是现有表，则会用新摄入的数据追加或覆盖数据。默认操作为附加

xviii.单击“编辑”，根据需要修改列标题和列数据类型，以便对目标表进行任何转换。如果不需要，也可以恢复更改。

xix.单击“摄取”。在 数据管理器页面的 消化历史选项卡中可以找到已提交的消化任务。

触发“打开任务详细信息”通知消息，导航至“摄取任务详细信息”。

单击“摄取历史记录”选项卡中摄取任务的取消图标，或单击摄取任务详细信息页面中的取消任务，即可取消摄取任务。

xx. 在“采集历史”选项卡中点击所需的采集作业的作业日志ID，以获取详细信息和日志。

二十一、在 “摄取历史”选项卡中点击摄取作业的 “目标”链接，即可在 “数据管理器” 页面中导航至摄取的表格。

从远程存储器输入数据

如果您选择了仓库，请从 接收数据：存储 页面完成以下步骤：

i.从 Select storage 下拉菜单中选择一个存储桶。

您还可以单击 Add + 图标，添加新的存储桶。有关更多信息，请参阅添加存储。您可以根据权限创建所有用户都能访问的永久存储连接。在基础设施管理器页面选择创建永久连接。您还可以选择 "创建临时连接，创建一个在摄取期间可访问的临时存储连接。该临时存储不得在基础架构管理器页面中提供，也不得被其他用户访问。

ii.根据源数据选择所需的文件类型。可用选项包括 CSV、Parquet、JSON、ORC 和 AVRO。

iii.从 All files 选项卡中选择要摄取的文件。选定的文件在 Files selected 选项卡中列出。您可以在 文件详细信息 部分查看所选文件的详细信息。

您可以添加多个相同文件类型的文件。最大文件大小必须为 500 MB。

您可以删除单个文件，也可以使用 Unselect all 选项删除所有文件。

iv.单击要预览的特定文件的预览图标。此操作将打开一个新的文件预览窗口，显示所选文件的表格。

v.单击“编辑”按钮编辑列标题。

vi.根据需要修改列标题和数据类型，以便进行任何转换。

vii.如果需要撤销更改，可以使用“取消编辑”或“重置”将列标题恢复到原始状态。

viii 对于 CSV 文件，您可以选择高级属性，以自定义文件的以下解释：

第一行的标题： 如果 CSV 文件有包含列名的标题行，请选择此选项。

列分隔符： 指定 CSV 文件中用于分隔列的字符。

文件编码： 选择 CSV 文件中使用的字符编码。

行分隔符： 指定 CSV 文件中用于分隔行的字符。

转义字符： 定义 CSV 文件中用于转义特殊字符的字符。

ix.单击保存保存更改。

x.在目标表窗口中，从选择目录列表中选择目标目录。所选目录必须处于活动状态才能执行摄取任务。

xi.从模式选项中选择一个：

现有模式：将源数据导入现有模式。 在“选择模式”下拉菜单中搜索或选择目标模式。
新方案：在 “创建新方案”字段中输入新方案名称，通过明确点击 “创建”选项，从源数据创建新方案。

xii. 根据架构选择，选择相应的目标表选项。

现有表：将源数据导入现有表。 在“选择表格”下拉菜单中搜索或选择目标表格。
新表：在 “创建新表”字段中输入新的目标表名称，通过明确点击 “创建”选项，从源数据创建新表。

xiii.如果需要，请修改 任务详细信息中自动生成的摄取任务 ID。

xiv.从“选择引擎”列表中选择 Spark 引擎。注册的火花发动机在此列出。

xv.从列出的选项中选择预定义的任务大小。任务大小会根据文件大小自动设置为首选选项。用户还可以选择以下选项之一。

小：

小型配置。
配置	值
驱动程序内存	2 GB
驱动程序核心	1 个 vCPU
Executor 数量	1
执行程序核心	1 个 vCPU
执行程序内存	2 GB

中等：

中型配置。
配置	值
驱动程序内存	4 GB
驱动程序核心	2 个 vCPU
Executor 数量	2
执行程序核心	2 个 vCPU
执行程序内存	4 GB

大号

大型配置。
配置	值
驱动程序内存	8 GB
驱动程序核心	4 个 vCPU
Executor 数量	4
执行程序核心	4 个 vCPU
执行程序内存	8 GB

xvi.Click 预览查看数据管理器中显示的最终输出表。

如果所选目标表是现有表，则会用新摄入的数据追加或覆盖数据。默认操作为附加

xvii.单击“编辑”，根据需要修改列标题和列数据类型，以便对目标表进行任何转换。如果不需要，也可以恢复更改。

xviii.点击摄入。在 数据管理器页面的 消化历史选项卡中可以找到已提交的消化任务。

触发“打开任务详细信息”通知消息，导航至“摄取任务详细信息”。

单击“摄取历史记录”选项卡中摄取任务的取消图标，或单击摄取任务详细信息页面中的取消任务，即可取消摄取任务。

十九、在“采集历史”选项卡中点击所需的采集作业的作业日志ID，以获取详细信息和日志。

xx. 在 “摄取历史”选项卡中点击摄取作业的 “目标”链接，即可在 “数据管理器” 页面中导航至摄取的表格。

从数据库获取数据

如果您选择了 数据库，请从 接收数据：数据库 页面完成以下步骤：

i.从 选择数据库下拉菜单中选择一个数据库。

您还可以单击添加 + 图标来添加新数据库。有关详细信息，请参阅添加数据库。您可以在基础结构管理器页面选择创建永久连接，根据权限创建所有用户都能访问的永久数据库连接。您还可以通过选择创建临时连接，创建一个在摄取期间可访问的临时数据库连接。该临时数据库不得出现在基础结构管理器页面上，也不能被其他用户访问。

ii.从 Schemas 窗口选择模式。

iii.从“浏览表”部分选择要摄取的表。

iv.在目标表窗口中，从选择目录列表中选择目标目录。所选目录必须处于活动状态才能执行摄取任务。

v.从模式选项中选择一个：

现有模式：将源数据导入现有模式。 在“选择模式”下拉菜单中搜索或选择目标模式。
新方案：在 “创建新方案”字段中输入新方案名称，通过明确点击 “创建”选项，从源数据创建新方案。

vi.根据选择（如前所述）选择相应的目标表选项。

现有表：将源数据导入现有表。 在“选择表格”下拉菜单中搜索或选择目标表格。
新表：在 “创建新表”字段中输入新的目标表名称，通过明确点击 “创建”选项，从源数据创建新表。

vii.如有需要，请修改任务详细信息中自动生成的摄取任务 ID。

viii.从“选择发动机”列表中选择 Spark 发动机。注册的火花发动机在此列出。

ix.从列出的选项中选择预定义的任务大小。任务大小会根据文件大小自动设置为首选选项。用户还可以选择以下选项之一。

小：

小型配置。
配置	值
驱动程序内存	2 GB
驱动程序核心	1 个 vCPU
Executor 数量	1
执行程序核心	1 个 vCPU
执行程序内存	2 GB

中等：

中型配置。
配置	值
驱动程序内存	4 GB
驱动程序核心	2 个 vCPU
Executor 数量	2
执行程序核心	2 个 vCPU
执行程序内存	4 GB

大号

大型配置。
配置	值
驱动程序内存	8 GB
驱动程序核心	4 个 vCPU
Executor 数量	4
执行程序核心	4 个 vCPU
执行程序内存	8 GB

x.Click 预览查看数据管理器中显示的最终输出表。

如果所选目标表是现有表，则会用新摄入的数据追加或覆盖数据。默认操作为附加

xi.单击“编辑”，根据需要修改列标题和列数据类型，以便对目标表进行任何转换。如果不需要，也可以恢复更改。

xii.点击摄入。在 数据管理器页面的 消化历史选项卡中可以找到已提交的消化任务。

触发“打开任务详细信息”通知消息，导航至“摄取任务详细信息”。

单击“摄取历史记录”选项卡中摄取任务的取消图标，或单击摄取任务详细信息页面中的取消任务，即可取消摄取任务。

十三、在 “采集历史”选项卡中点击所需采集作业的作业日志ID，获取详细信息和日志。

xiv. 在“摄取历史”选项卡中点击摄取作业的 “目标”链接，即可在 “数据管理器” 页面中导航至摄取的表格。

IBM Cloud

通过网络控制台使用 Spark 接收数据

准备工作

从本地系统输入数据

从远程存储器输入数据

从数据库获取数据

相关应用程序接口