通过 CLI 使用 ibm-lh 实用程序进行 Presto 摄取
您可以使用 ibm-lh 实用程序将数据从 S3 或本地位置摄取到 IBM® watsonx.data 中。 支持以下选项:
- 命令行 选项
- 配置文件 选项
本主题详细介绍了使用 Presto 引擎摄取的 ibm-lh 实用程序支持的参数。 有关摄取的详细说明,请参阅
命令行和配置文件中支持的不同选项和变量列示如下:
-
命令行 选项
命令行选项和变量 参数 描述 声明 (declaration) create-if-not-exist 如果目标表不存在,则创建目标表。 --create-if-not-exist
dbpassword 用于执行采集的数据库密码。 这是运行摄入作业的必需参数,除非使用缺省用户。 --dbpassword <DBPASSWORD>
dbuser 用于执行摄入的数据库用户名。 这是运行摄入作业的必需参数,除非使用缺省用户。 --dbuser <DBUSER>
摄入配置 用于数据迁移的配置文件 --ingest-config <INGEST_CONFIGFILE>
采集引擎端点 采集引擎的端点。主机名 = <hostname>
,端口 =<port>
。这是运行摄入作业的必需参数。--ingestion-engine-endpoint <INGESTION_ENGINE_ENDPOINT>
日志目录 此选项用于指定日志文件的位置。 请参阅 日志目录(Log directory)。 --ingest-config <ingest_config_file> --log-directory <directory_path>
模式 包含 CSV 规范等的模式文件。 请参阅 模式文件规范。 --schema </path/to/schemaconfig/file>
source-data-files 用于数据迁移的数据文件或文件夹。 以 /
结尾的文件名被视为文件夹。 可以使用单个或多个文件。 这是运行摄入作业的必需参数。 文件名区分大小写。 示例:<file1_path>,<file2_path>,<folder1_path>
--source-data-files <SOURCE_DATA_FILE>
分段式货位 CSV 文件的登台位置以及在某些情况下 Parquet 文件的登台位置,请参阅 登台位置。 这是运行摄入作业的必需参数。 --staging-location <STAGING_LOCATION>
登台-hive-catalog 在 watsonx.data中配置的 Hive 目录名称 (如果未使用缺省目录进行登台)。 缺省目录 :hive_data。 --staging-hive-catalog <catalog_name>
登台-hive-schema 与用于采集的登台 Hive 目录相关联的模式名称。 使用此参数创建并传入定制模式名称。 缺省模式: lhingest_staging_schema
。 如果将模式创建为缺省模式,那么您不需要指定此参数。--staging-hive-schema <schema_name>
系统配置 此参数用于指定与系统相关的参数。 请参阅 系统配置。 --system-config <path/to/system/configfile>
目标表 数据迁移目标表。 <catalog>.<schema>.<table1>
。 这是运行摄入作业的必需参数。 示例:<iceberg.demo.customer1>
--target-table <TARGET_TABLES>
信任库路径 用于访问摄入引擎的信任库的路径。 这用于建立 SSL 连接。 这是运行摄入作业的必需参数。 --trust-store-path <TRUST_STORE_PATH>
信任库密码 用于访问摄入引擎的信任库的密码。 这用于建立 SSL 连接。 这是运行摄入作业的必需参数。 --trust-store-password <TRUST_STORE_PASSWORD>
-
配置文件 选项
配置文件 包含一个全局采集配置部分和多个单独的采集配置部分以运行采集作业。 各个摄入部分的规范将覆盖全局摄入部分的规范。
-
全局摄取配置部分
全局摄取配置选项和变量 参数 描述 声明 (declaration) create-if-not-exist 创建目标表 (如果不存在) create-if-not-exist:<true/false>
采集引擎端点 指定摄入引擎的连接参数。 采集引擎的端点。主机名 = <hostname>
,端口 =<port>
ingestion-engine:hostname=<hostname>, port=<port>
目标表 数据迁移目标表。 只能指定一个目标表。 <catalog>.<schema>.<table1>
target-table:<table_name>
-
单独的摄取配置部分
在配置文件选项中可以有多个单独的摄取部分。 将单独摄入每个单独的摄入配置部分。
个别摄取配置选项和变量 参数 描述 声明 (declaration) create-if-not-exist 如果目标表不存在,则创建目标表。 create-if-not-exist
dbpassword 用于执行采集的数据库密码。 这是运行摄入作业的必需参数,除非使用缺省用户。 dbpassword:<DBPASSWORD>
dbuser 用于执行摄入的数据库用户名。 这是运行摄入作业的必需参数,除非使用缺省用户。 dbuser:<DBUSER>
采集引擎端点 采集引擎的端点。主机名 = <hostname>
,端口 =<port>
。这是运行摄入作业的必需参数。ingestion-engine-endpoint:<INGESTION_ENGINE_ENDPOINT>
模式 包含 CSV 规范等的模式文件。 请参阅 模式文件规范 schema:/path/to/schemaconfig/file
源文件 用于数据迁移的数据文件或文件夹。 以 /
结尾的文件名被视为文件夹。 这是运行摄入作业的必需参数。source-files:<SOURCE_DATA_FILE>
分段式货位 CSV 文件的登台位置以及在某些情况下 Parquet 文件的登台位置,请参阅 登台位置。 这是运行摄入作业的必需参数。 staging-location:<STAGING_LOCATION>
登台-hive-catalog 在 watsonx.data中配置的 Hive 目录名称 (如果未使用缺省目录进行登台)。 缺省目录 :hive_data。 --staging-hive-catalog <catalog_name>
登台-hive-schema 与用于采集的登台 Hive 目录相关联的模式名称。 使用此参数创建并传入定制模式名称。 缺省模式: lhingest_staging_schema
。 如果将模式创建为缺省模式,那么您不需要指定此参数。--staging-hive-schema <schema_name>
系统配置 此参数用于指定与系统相关的参数。 请参阅 系统配置。 --system-config <path/to/system/configfile>
目标目录 URI 目标目录 URI target-catalog-uri:<TARGET_CATALOG_URI>
目标表 数据迁移目标表。 <catalog>.<schema>.<table1>
。 这是运行摄入作业的必需参数。 示例:<iceberg.demo.customer1>
target-table:<TARGET_TABLES>
目标表存储器 目标表文件存储位置 target-table-storage:<TARGET_TABLE_STORAGE>
信任库路径 用于访问摄入引擎的信任库的路径。 这用于建立 SSL 连接。 这是运行摄入作业的必需参数。 trust-store-path:<TRUST_STORE_PATH>
信任库密码 用于访问摄入引擎的信任库的密码。 这用于建立 SSL 连接。 这是运行摄入作业的必需参数。 trust-store-password:<TRUST_STORE_PASSWORD>
-