自定义概述
您可以自定义watsonx.data Spark 引擎专门用于满足您的应用程序需求,超出默认配置的范围。
例如,您可能想要安装自定义分析第三方库,或者您可能想要微调某些集群配置,例如 Spark 默认配置。
您可以在实例生命周期的任何阶段对其进行自定义。 自定义仅适用于添加自定义后提交的应用程序。 它们不适用于当前正在运行的应用程序。
定制选项
您可以通过以下方式自定义您的实例:
- 指定实例中运行的所有 Spark 应用程序继承的配置值
- 为您的 Spark 应用程序提供 Python、R、Scala 或自定义库
创建实例时,您可以:
-
指定支持的配置属性和环境变量的默认值Apache Spark配置。 您可以将配置属性和环境变量指定为名称-值对,这些名称-值对保存在实例级别并传递给在实例中运行的所有 Spark 应用程序。 这些默认配置参数可以简化提交 Spark 应用程序时传递的有效负载。 您还可以在提交 Spark 应用程序时覆盖这些值。
有关默认 Spark 配置和环境变量的列表,请参阅 Spark 配置。
-
创建实例后,使用 Spark 应用程序所需的库自定义实例。 您可以创建一个库集,将所有要提供给实例中运行的所有 Spark 应用程序的库打包起来,然后在提交 Spark 应用程序时引用这个定义的库集。
要创建库集,请参阅 创建库集。
注:
- 自定义库集的最大大小限制为 2 GB。
- Spark 应用程序的启动时间或在自动扩展场景中添加其他执行器所需的时间与自定义库集的大小成正比。 因此,最佳做法是将库集限制为仅包含特定应用程序所需的文件。 如果其他应用程序需要不同的文件集,最好使用不同的库集。