IBM Cloud Docs
参数摘要

参数摘要

以下部分提供了可用于语音识别的所有参数的摘要。 这些信息包括大型语音模型,前代和下一代模型以及语音识别接口的支持和使用情况。

access_token

一个必需的访问令牌,用于与 WebSocket建立经过身份验证的连接。 有关更多信息,请参阅打开连接

访问令牌参数
可用性和用途 描述
大型语音模型 一般适用于所有语言。
上一代模型 一般适用于所有语言。
下一代模型 一般适用于所有语言。
WebSocket /v1/recognize 连接请求的查询参数
同步 HTTP 不支持
异步 HTTP 不支持

acoustic_customization_id

(可选)定制声学模型的定制标识,可调整以适应环境和说话者的声学特征。 缺省情况下,不会使用定制模型。 有关更多信息,请参阅 使用定制声学模型进行语音识别

参数 acoustic_customization_id
可用性和用途 描述
大型语音模型 不可用。
上一代模型 已普遍可用或为 Beta 功能,可用于支持声学模型定制的所有模型。 有关更多信息,请参阅 对前代模型的定制支持
下一代模型 不可用。
WebSocket /v1/recognize 连接请求的查询参数
同步 HTTP POST /v1/recognize 方法的查询参数
异步 HTTP POST /v1/recognitions 方法的查询参数

audio_metrics

(可选)布尔值,用于指示服务是否返回有关输入音频信号特征的度量值。 缺省情况下 (false),服务不会返回音频度量值。 有关更多信息,请参阅音频度量值

音频度量参数
可用性和用途 描述
大型语音模型 一般适用于所有语言。
上一代模型 一般适用于所有语言。
下一代模型 一般适用于所有语言。
WebSocket JSON start 消息的参数
同步 HTTP POST /v1/recognize 方法的查询参数
异步 HTTP POST /v1/recognitions 方法的查询参数

background_audio_suppression

(可选)介于 0.0 到 1.0 之间的浮点值,用于指示要对输入音频中的背景音频和私下会话进行抑制的程度。 缺省值为 0.0,表示不抑制背景音频。 有关更多信息,请参阅 后台音频禁止

背景声音抑制参数
可用性和用途 描述
大型语音模型 一般适用于所有语言。
上一代模型 ar-MS_BroadbandModelpt-BR_BroadbandModelzh-CN_BroadbandModelzh-CN_NarrowbandModelde-DE_BroadbandModel 外,所有语言版本均可用。
下一代模型 一般适用于所有语言。
WebSocket JSON start 消息的参数
同步 HTTP POST /v1/recognize 方法的查询参数
异步 HTTP POST /v1/recognitions 方法的查询参数

base_model_version

(可选)基本模型的版本。 此参数主要用于已针对新基本模型更新的定制模型,但也可以在没有定制模型的情况下使用。 缺省值取决于此参数是否与定制模型配合使用。 有关更多信息,请参阅 使用升级后的定制模型发出语音识别请求

基准模型版本参数
可用性和用途 描述
大型语音模型 一般适用于所有语言。
上一代模型 一般适用于所有语言。
下一代模型 一般适用于所有语言。
WebSocket /v1/recognize 连接请求的查询参数
同步 HTTP POST /v1/recognize 方法的查询参数
异步 HTTP POST /v1/recognitions 方法的查询参数

字符插入偏差

-1.0 与 1.0 之间的可选浮点值,用于指示在开发转录假设时,服务是否偏向识别较短 (负值) 或较长 (正值) 的字符串。 缺省情况下,服务使用缺省偏差 0.0。 您指定的值表示与模型的缺省值相比的更改。 有关更多信息,请参阅 字符插入偏差

字符插入偏置参数
可用性和用途 描述
大型语音模型 不可用。
上一代模型 不可用。
下一代模型 一般适用于所有语言。
WebSocket JSON start 消息的参数
同步 HTTP POST /v1/recognize 方法的查询参数
异步 HTTP POST /v1/recognitions 方法的查询参数

Content-Type

(可选)音频格式(MIME 类型),用于指定传递给服务的音频数据的格式。 服务可以自动检测大多数音频的格式,因此对于大多数格式,此参数是可选的。 对于 audio/alawaudio/basicaudio/l16audio/mulaw 格式,此字段是必需的。 有关更多信息,请参阅 指定音频格式

内容类型参数
可用性和用途 描述
大型语音模型 一般适用于所有语言。
上一代模型 一般适用于所有语言。
下一代模型 一般适用于所有语言。
WebSocket JSON content-type 消息的 start 参数
同步 HTTP POST /v1/recognize 方法的请求头
异步 HTTP POST /v1/recognitions 方法的请求头

customization_weight

(可选)介于 0.0 到 1.0 之间的双精度值,用于指示服务要给予定制语言模型中的词相对于基本词汇表中的词的权重。 对于不同类型的模型,缺省值有所不同。 您可以在训练定制模型或将其用于语音识别时指定值。 有关更多信息,请参阅使用定制权重

自定义权重参数
可用性和用途 描述
大型语音模型 一般适用于所有语言。 默认值0.5。
上一代模型 已普遍可用或为 Beta 功能,可用于支持语言模型定制的所有模型。 默认值0.3。 有关更多信息,请参阅 对前代模型的定制支持
下一代模型 已普遍可用或为 Beta 功能,可用于支持语言模型定制的所有模型。 对于大多数下一代模型,缺省值为 0.2 ; 对于基于新语言模型定制技术的模型,缺省值为 0.1。 有关更多信息,请参阅 下一代模型的定制支持
WebSocket JSON start 消息的参数
同步 HTTP POST /v1/recognize 方法的查询参数
异步 HTTP POST /v1/recognitions 方法的查询参数

end_of_phrase_silence_time

(可选)介于 0.0 和 120.0 之间的双精度值,用于指示服务在遇到静默时用来将文字记录拆分为多个最终结果的停顿时间间隔。 缺省情况下,服务会对除中文以外的其他所有语言使用 0.8 秒的停顿时间间隔,对于中文,使用 0.6 秒的停顿时间间隔。 有关更多信息,请参阅短语结束静默时间

静音结束时间参数
可用性和用途 描述
大型语音模型 一般适用于所有语言。
上一代模型 一般适用于所有语言。
下一代模型 一般适用于所有语言。
WebSocket JSON start 消息的参数
同步 HTTP POST /v1/recognize 方法的查询参数
异步 HTTP POST /v1/recognitions 方法的查询参数

grammar_name

(可选)字符串,用来标识要用于语音识别的语法。 服务仅识别由语法定义的字符串。 必须同时指定语法的名称和为其定义语法的定制语言模型的定制标识。 有关更多信息,请参阅将语法用于语音识别

语法名称参数
可用性和用途 描述
大型语音模型 不可用。
上一代模型 已普遍可用或为 Beta 功能,可用于支持语言模型定制的所有模型。 有关更多信息,请参阅 对前代模型的定制支持
下一代模型 已普遍可用或为 Beta 功能,可用于支持语言模型定制的所有模型。 有关更多信息,请参阅 下一代模型的定制支持
WebSocket JSON start 消息的参数
同步 HTTP POST /v1/recognize 方法的查询参数
异步 HTTP POST /v1/recognitions 方法的查询参数

inactivity_timeout

(可选)整数,用于指定服务不活动状态超时的秒数。 不活动状态表示服务在流式音频中未检测到语音。 缺省值为 30 秒。 使用 -1 指示无穷大。 有关更多信息,请参阅不活动状态超时

inactivity_timeout 参数
可用性和用途 描述
大型语音模型 一般适用于所有语言。
上一代模型 一般适用于所有语言。
下一代模型 一般适用于所有语言。
WebSocket JSON start 消息的参数
同步 HTTP POST /v1/recognize 方法的查询参数
异步 HTTP POST /v1/recognitions 方法的查询参数

interim_results

(可选)布尔值,用于指示服务返回在最终文字记录之前可能会更改的中间假设。 缺省情况下 (false),不会返回中间结果。 中间结果仅可用于 WebSocket 接口。 有关更多信息,请参阅中间结果

interim_results 参数
可用性和用途 描述
大型语音模型 不可用。
上一代模型 一般适用于所有语言。
下一代模型 通常可用于支持低等待时间的下一代模型,但前提是 interim_resultslow_latency 参数都设置为 true。 有关更多信息,请参阅 请求临时结果和低等待时间
WebSocket JSON start 消息的参数
同步 HTTP 不支持
异步 HTTP 不支持

keywords

(可选)关键字字符串的数组,服务会在输入音频中识别这些字符串。 缺省情况下,不会执行关键字识别。 有关更多信息,请参阅关键字识别

keywords 参数
可用性和用途 描述
大型语音模型 不可用。
上一代模型 一般适用于所有语言。
下一代模型 不可用。
WebSocket JSON start 消息的参数
同步 HTTP POST /v1/recognize 方法的查询参数
异步 HTTP POST /v1/recognitions 方法的查询参数

keywords_threshold

(可选)介于 0.0 到 1.0 之间的双精度值,用于指示关键字正匹配的最小阈值。 缺省情况下,不会执行关键字识别。 有关更多信息,请参阅关键字识别

keywords_threshold 参数
可用性和用途 描述
大型语音模型 不可用。
上一代模型 一般适用于所有语言。
下一代模型 不可用。
WebSocket JSON start 消息的参数
同步 HTTP POST /v1/recognize 方法的查询参数
异步 HTTP POST /v1/recognitions 方法的查询参数

language_customization_id

(可选)定制语言模型的定制标识,该模型包含您的领域中的术语。 缺省情况下,不会使用定制模型。 有关更多信息,请参阅 使用定制语言模型进行语音识别

language_customization_id 参数
可用性和用途 描述
大型语音模型 一般适用于所有语言。
上一代模型 已普遍可用或为 Beta 功能,可用于支持语言模型定制的所有模型。 有关更多信息,请参阅 对前代模型的定制支持
下一代模型 已普遍可用或为 Beta 功能,可用于支持语言模型定制的所有模型。 有关更多信息,请参阅 下一代模型的定制支持
WebSocket /v1/recognize 连接请求的查询参数
同步 HTTP POST /v1/recognize 方法的查询参数
异步 HTTP POST /v1/recognitions 方法的查询参数

low_latency

一个可选布尔值,用于指示服务是否以可能牺牲转录准确性为代价更快地生成结果。 缺省情况下 (false),未启用低等待时间。 有关更多信息,请参阅 低等待时间

低延迟参数
可用性和用途 描述
大型语音模型 不可用。
上一代模型 不可用。
下一代模型 适用于支持低延迟的下一代模型的一般可用或 Beta。 有关更多信息,请参阅 支持的下一代语言模型
WebSocket JSON start 消息的参数
同步 HTTP POST /v1/recognize 方法的查询参数
异步 HTTP POST /v1/recognitions 方法的查询参数

max_alternatives

(可选)整数,用于指定服务返回的最大替代假设数。 缺省情况下,服务会返回单个最终假设。 有关更多信息,请参阅最大替代项数

max_alternatives 参数
可用性和用途 描述
大型语音模型 不可用。
上一代模型 一般适用于所有语言。
下一代模型 一般适用于所有语言。
WebSocket JSON start 消息的参数
同步 HTTP POST /v1/recognize 方法的查询参数
异步 HTTP POST /v1/recognitions 方法的查询参数

model

可选型号,可指定音频的播放语言和采样率:宽带/多媒体或窄带/电话。 缺省情况下,会使用 en-US_BroadbandModel。 有关更多信息,请参阅 使用模型进行语音识别

model 参数
可用性和用途 描述
大型语音模型 一般适用于所有语言。
上一代模型 一般适用于所有语言。
下一代模型 一般适用于所有语言。
WebSocket /v1/recognize 连接请求的查询参数
同步 HTTP POST /v1/recognize 方法的查询参数
异步 HTTP POST /v1/recognitions 方法的查询参数

processing_metrics

(可选)布尔值,用于指示服务是否返回有关其输入音频处理的度量值。 缺省情况下 (false),服务不会返回处理度量值。 有关更多信息,请参阅处理度量值

processing_metrics 参数
可用性和用途 描述
大型语音模型 不可用。
上一代模型 一般适用于所有语言。
下一代模型 不可用。
WebSocket JSON start 消息的参数
同步 HTTP 不支持
异步 HTTP POST /v1/recognitions 方法的查询参数

processing_metrics_interval

(可选)浮点值,至少为 0.1,用于指示服务将返回处理度量值的时间间隔。 如果 processing_metrics 参数为 true,那么缺省情况下服务每 1.0 秒返回一次处理度量值。 有关更多信息,请参阅处理度量值

processing_metrics_interval 参数
可用性和用途 描述
大型语音模型 不可用。
上一代模型 一般适用于所有语言。
下一代模型 不可用。
WebSocket JSON start 消息的参数
同步 HTTP 不支持
异步 HTTP POST /v1/recognitions 方法的查询参数

profanity_filter

(可选)布尔值,用于指示服务是否从文字记录中检剔不雅言辞。 缺省情况下 (true),会过滤掉文字记录中的不雅言辞。 有关更多信息,请参阅不雅言辞过滤

profanity_filter 参数
可用性和用途 描述
大型语音模型 一般适用于所有语言。
上一代模型 一般适用于所有语言。
下一代模型 一般适用于所有语言。
WebSocket JSON start 消息的参数
同步 HTTP POST /v1/recognize 方法的查询参数
异步 HTTP POST /v1/recognitions 方法的查询参数

redaction

(可选)布尔值,用于指示服务是否对文字记录中包含三个或更多个连续位的数字数据进行编辑。 缺省情况下 (false),不会编辑数字数据。 如果将 redaction 参数设置为 true,那么服务会自动将 smart_formatting 参数强制为 true,并且会禁用 keywordskeywords_thresholdmax_alternatives 和 (对于 WebSocket 接口) interim_results 参数。 有关更多信息,请参阅数字编辑

redaction 参数
可用性和用途 描述
大型语音模型 针对英语和日语的 Beta。
上一代模型 Beta版支持美式英语、日语和韩语。
下一代模型 Beta版支持美式英语、日语和韩语。
WebSocket JSON start 消息的参数
同步 HTTP POST /v1/recognize 方法的查询参数
异步 HTTP POST /v1/recognitions 方法的查询参数

smart_formatting

(可选)布尔值,用于指示服务是否将最终文字记录中的日期、时间、数字、货币和类似值转换为更传统的表示法。 对于美国英语,此功能还会将特定关键字短语转换为标点符号。 缺省情况下 (false),不会执行智能格式设置。 有关更多信息,请参阅智能格式设置

smart_formatting 参数
可用性和用途 描述
大型语音模型 一般适用于所有语言。
上一代模型 一般可用于美式英语,日语和西班牙语 (所有方言)。
下一代模型 一般可用于美式英语,日语和西班牙语 (所有方言)。 当识别出美式英语音频时,en-WW_Medical_Telephony 车型也可使用。
WebSocket JSON start 消息的参数
同步 HTTP POST /v1/recognize 方法的查询参数
异步 HTTP POST /v1/recognitions 方法的查询参数

smart_formatting_version

一个可选的整数,用于指示服务是否将日期、时间、数字、货币和类似值转换为最终记录中更常规的表示形式。 更多信息,请参阅 智能格式化版本

表 23a。 smart_formatting_version 参数
可用性和用途 描述
大型语音模型 一般适用于除日语以外的所有语言。
上一代模型 不支持。
下一代模型 通常仅适用于美国英语 (包括 en-WW_Medical_Telephony),巴西葡萄牙语,法国法语,德语,加拿大法语和西班牙语。
WebSocket JSON start 消息的参数。 服务会禁用临时结果。
同步 HTTP POST /v1/recognize 方法的查询参数
异步 HTTP POST /v1/recognitions 方法的查询参数

speaker_labels

(可选)布尔值,用于指示服务是否在多参与者交流中标识哪些人说了哪些词。 如果将 speaker_labels 参数设置为 true,那么服务会自动强制将 timestamps 参数设置为 true。 缺省情况下 (false),不会返回说话者标签。 有关更多信息,请参阅说话者标签

speaker_labels 参数
可用性和用途 描述
大型语音模型 适用于所有语言的 Beta。
上一代模型 适用于所有语言的 Beta。
下一代模型 一般适用于所有语言。
WebSocket JSON start 消息的参数
同步 HTTP POST /v1/recognize 方法的查询参数
异步 HTTP POST /v1/recognitions 方法的查询参数

speech_detector_sensitivity

(可选)介于 0.0 到 1.0 之间的浮点值,用于指示语音识别功能对输入音频中非语音事件的敏感度。 缺省值为 0.5,表示提供对非语音事件的合理敏感度级别。 有关更多信息,请参阅 语音检测器敏感度

speech_detector_sensitivity 参数
可用性和用途 描述
大型语音模型 一般适用于所有语言。
上一代模型 ar-MS_BroadbandModelpt-BR_BroadbandModelzh-CN_BroadbandModelzh-CN_NarrowbandModelde-DE_BroadbandModel 外,所有语言版本均可用。
下一代模型 一般适用于所有语言。
WebSocket JSON start 消息的参数
同步 HTTP POST /v1/recognize 方法的查询参数
异步 HTTP POST /v1/recognitions 方法的查询参数

split_transcript_at_phrase_end

(可选)布尔值,用于指示是否服务基于输入的语义特征(例如,句子),将文字记录拆分为多个最终结果。 服务对语义特征的理解基于基本语言模型,这会进一步受到定制语言模型和语法的影响。 缺省情况下 (false),服务不会生成语义拆分。 有关更多信息,请参阅在短语结束位置拆分文字记录

split_transcript_at_phrase_end 参数
可用性和用途 描述
大型语音模型 不可用。
上一代模型 一般适用于所有语言。
下一代模型 一般适用于所有语言。
WebSocket JSON start 消息的参数
同步 HTTP POST /v1/recognize 方法的查询参数
异步 HTTP POST /v1/recognitions 方法的查询参数

timestamps

(可选)布尔值,用于指示服务是否为文字记录中的词生成时间戳记。 缺省情况下 (false),不会返回时间戳记。 有关更多信息,请参阅词时间戳记

timestamps 参数
可用性和用途 描述
大型语音模型 一般适用于所有语言。
上一代模型 一般适用于所有语言。
下一代模型 一般适用于所有语言。
WebSocket JSON start 消息的参数
同步 HTTP POST /v1/recognize 方法的查询参数
异步 HTTP POST /v1/recognitions 方法的查询参数

Transfer-Encoding

(可选)值为 chunked 将使音频流式传输到服务。 缺省情况下,音频会在一次传递中一次性全部发送。 有关更多信息,请参阅音频传输

Transfer-Encoding 参数
可用性和用途 描述
大型语音模型 一般适用于所有语言。
上一代模型 一般适用于所有语言。
下一代模型 一般适用于所有语言。
WebSocket 不适用;始终流式传输
同步 HTTP POST /v1/recognize 方法的请求头
异步 HTTP POST /v1/recognitions 方法的请求头

word_alternatives_threshold

(可选)介于 0.0 到 1.0 之间的双精度值,用于指定服务报告输入音频中词的发音相似替代项的阈值。 缺省情况下,不会返回词替代项。 有关更多信息,请参阅词替代项

word_alternatives_threshold 参数
可用性和用途 描述
大型语音模型 不可用。
上一代模型 一般适用于所有语言。
下一代模型 不可用。
WebSocket JSON start 消息的参数
同步 HTTP POST /v1/recognize 方法的查询参数
异步 HTTP POST /v1/recognitions 方法的查询参数

word_confidence

(可选)布尔值,用于指示服务是否为文字记录中的词提供置信度度量。 缺省情况下 (false),不会返回词置信度度量。 有关更多信息,请参阅词置信度

word_confidence 参数
可用性和用途 描述
大型语音模型 一般适用于所有语言。
上一代模型 一般适用于所有语言。
下一代模型 一般适用于所有语言。
WebSocket JSON start 消息的参数
同步 HTTP POST /v1/recognize 方法的查询参数
异步 HTTP POST /v1/recognitions 方法的查询参数

X-Watson-Learning-Opt-Out

IBM Cloud

(可选)布尔值,指示是否选择性停用 IBM 为了针对未来用户改进服务而执行的缺省请求日志记录。 要阻止 IBM 访问您的数据以进行一般服务改进,请为此参数指定 true。 如果选择退出,那么服务将记录请求中的 no 用户数据,而不会将任何音频或文本保存到磁盘。 您还可以在帐户级别选择性停用。 有关更多信息,请参阅请求日志记录

X-Watson-Learning-Opt-Out 参数
可用性和用途 描述
大型语音模型 一般适用于所有语言。
上一代模型 一般适用于所有语言。
下一代模型 一般适用于所有语言。
WebSocket x-watson-learning-opt-out 连接请求的 /v1/recognize 查询参数
同步 HTTP 每个请求的请求头
异步 HTTP 每个请求的请求头

X-Watson-Metadata

(可选)字符串,用于将客户标识与为识别请求传递的数据相关联。 此参数接受自变量 customer_id={id}。 缺省情况下,没有客户标识与数据相关联。 有关更多信息,请参阅信息安全

X-Watson-Metadata 参数
可用性和用途 描述
大型语音模型 一般适用于所有语言。
上一代模型 一般适用于所有语言。
下一代模型 一般适用于所有语言。
WebSocket x-watson-metadata 连接请求的 /v1/recognize 查询参数。 (您必须对参数URL。 例如,customer_id%3dmy_customer_ID。)
同步 HTTP POST /v1/recognize 请求的请求头
异步 HTTP POST /v1/register_callbackPOST /v1/recognitions 请求的请求头