参数摘要
以下部分提供了可用于语音识别的所有参数的摘要。 这些信息包括大型语音模型,前代和下一代模型以及语音识别接口的支持和使用情况。
- 有关先前生成的语言和模型的更多信息,请参阅 先前生成的语言和模型。
- 有关下一代语言和模型的更多信息,请参阅 下一代语言和模型。
- 有关大型语音语言和模型的更多信息,请参阅 大型语音语言和模型;
access_token
一个必需的访问令牌,用于与 WebSocket建立经过身份验证的连接。 有关更多信息,请参阅打开连接。
可用性和用途 | 描述 |
---|---|
大型语音模型 | 一般适用于所有语言。 |
上一代模型 | 一般适用于所有语言。 |
下一代模型 | 一般适用于所有语言。 |
WebSocket | /v1/recognize 连接请求的查询参数 |
同步 HTTP | 不支持 |
异步 HTTP | 不支持 |
acoustic_customization_id
(可选)定制声学模型的定制标识,可调整以适应环境和说话者的声学特征。 缺省情况下,不会使用定制模型。 有关更多信息,请参阅 使用定制声学模型进行语音识别。
可用性和用途 | 描述 |
---|---|
大型语音模型 | 不可用。 |
上一代模型 | 已普遍可用或为 Beta 功能,可用于支持声学模型定制的所有模型。 有关更多信息,请参阅 对前代模型的定制支持。 |
下一代模型 | 不可用。 |
WebSocket | /v1/recognize 连接请求的查询参数 |
同步 HTTP | POST /v1/recognize 方法的查询参数 |
异步 HTTP | POST /v1/recognitions 方法的查询参数 |
audio_metrics
(可选)布尔值,用于指示服务是否返回有关输入音频信号特征的度量值。 缺省情况下 (false
),服务不会返回音频度量值。 有关更多信息,请参阅音频度量值。
可用性和用途 | 描述 |
---|---|
大型语音模型 | 一般适用于所有语言。 |
上一代模型 | 一般适用于所有语言。 |
下一代模型 | 一般适用于所有语言。 |
WebSocket | JSON start 消息的参数 |
同步 HTTP | POST /v1/recognize 方法的查询参数 |
异步 HTTP | POST /v1/recognitions 方法的查询参数 |
background_audio_suppression
(可选)介于 0.0 到 1.0 之间的浮点值,用于指示要对输入音频中的背景音频和私下会话进行抑制的程度。 缺省值为 0.0,表示不抑制背景音频。 有关更多信息,请参阅 后台音频禁止。
可用性和用途 | 描述 |
---|---|
大型语音模型 | 一般适用于所有语言。 |
上一代模型 | 除 ar-MS_BroadbandModel 、pt-BR_BroadbandModel 、zh-CN_BroadbandModel 、zh-CN_NarrowbandModel 和 de-DE_BroadbandModel 外,所有语言版本均可用。 |
下一代模型 | 一般适用于所有语言。 |
WebSocket | JSON start 消息的参数 |
同步 HTTP | POST /v1/recognize 方法的查询参数 |
异步 HTTP | POST /v1/recognitions 方法的查询参数 |
base_model_version
(可选)基本模型的版本。 此参数主要用于已针对新基本模型更新的定制模型,但也可以在没有定制模型的情况下使用。 缺省值取决于此参数是否与定制模型配合使用。 有关更多信息,请参阅 使用升级后的定制模型发出语音识别请求。
可用性和用途 | 描述 |
---|---|
大型语音模型 | 一般适用于所有语言。 |
上一代模型 | 一般适用于所有语言。 |
下一代模型 | 一般适用于所有语言。 |
WebSocket | /v1/recognize 连接请求的查询参数 |
同步 HTTP | POST /v1/recognize 方法的查询参数 |
异步 HTTP | POST /v1/recognitions 方法的查询参数 |
字符插入偏差
-1.0 与 1.0 之间的可选浮点值,用于指示在开发转录假设时,服务是否偏向识别较短 (负值) 或较长 (正值) 的字符串。 缺省情况下,服务使用缺省偏差 0.0。 您指定的值表示与模型的缺省值相比的更改。 有关更多信息,请参阅 字符插入偏差。
可用性和用途 | 描述 |
---|---|
大型语音模型 | 不可用。 |
上一代模型 | 不可用。 |
下一代模型 | 一般适用于所有语言。 |
WebSocket | JSON start 消息的参数 |
同步 HTTP | POST /v1/recognize 方法的查询参数 |
异步 HTTP | POST /v1/recognitions 方法的查询参数 |
Content-Type
(可选)音频格式(MIME 类型),用于指定传递给服务的音频数据的格式。 服务可以自动检测大多数音频的格式,因此对于大多数格式,此参数是可选的。 对于 audio/alaw
、audio/basic
、audio/l16
和 audio/mulaw
格式,此字段是必需的。 有关更多信息,请参阅 指定音频格式。
可用性和用途 | 描述 |
---|---|
大型语音模型 | 一般适用于所有语言。 |
上一代模型 | 一般适用于所有语言。 |
下一代模型 | 一般适用于所有语言。 |
WebSocket | JSON content-type 消息的 start 参数 |
同步 HTTP | POST /v1/recognize 方法的请求头 |
异步 HTTP | POST /v1/recognitions 方法的请求头 |
customization_weight
(可选)介于 0.0 到 1.0 之间的双精度值,用于指示服务要给予定制语言模型中的词相对于基本词汇表中的词的权重。 对于不同类型的模型,缺省值有所不同。 您可以在训练定制模型或将其用于语音识别时指定值。 有关更多信息,请参阅使用定制权重。
可用性和用途 | 描述 |
---|---|
大型语音模型 | 一般适用于所有语言。 默认值0.5。 |
上一代模型 | 已普遍可用或为 Beta 功能,可用于支持语言模型定制的所有模型。 默认值0.3。 有关更多信息,请参阅 对前代模型的定制支持。 |
下一代模型 | 已普遍可用或为 Beta 功能,可用于支持语言模型定制的所有模型。 对于大多数下一代模型,缺省值为 0.2 ; 对于基于新语言模型定制技术的模型,缺省值为 0.1。 有关更多信息,请参阅 下一代模型的定制支持。 |
WebSocket | JSON start 消息的参数 |
同步 HTTP | POST /v1/recognize 方法的查询参数 |
异步 HTTP | POST /v1/recognitions 方法的查询参数 |
end_of_phrase_silence_time
(可选)介于 0.0 和 120.0 之间的双精度值,用于指示服务在遇到静默时用来将文字记录拆分为多个最终结果的停顿时间间隔。 缺省情况下,服务会对除中文以外的其他所有语言使用 0.8 秒的停顿时间间隔,对于中文,使用 0.6 秒的停顿时间间隔。 有关更多信息,请参阅短语结束静默时间。
可用性和用途 | 描述 |
---|---|
大型语音模型 | 一般适用于所有语言。 |
上一代模型 | 一般适用于所有语言。 |
下一代模型 | 一般适用于所有语言。 |
WebSocket | JSON start 消息的参数 |
同步 HTTP | POST /v1/recognize 方法的查询参数 |
异步 HTTP | POST /v1/recognitions 方法的查询参数 |
grammar_name
(可选)字符串,用来标识要用于语音识别的语法。 服务仅识别由语法定义的字符串。 必须同时指定语法的名称和为其定义语法的定制语言模型的定制标识。 有关更多信息,请参阅将语法用于语音识别。
可用性和用途 | 描述 |
---|---|
大型语音模型 | 不可用。 |
上一代模型 | 已普遍可用或为 Beta 功能,可用于支持语言模型定制的所有模型。 有关更多信息,请参阅 对前代模型的定制支持。 |
下一代模型 | 已普遍可用或为 Beta 功能,可用于支持语言模型定制的所有模型。 有关更多信息,请参阅 下一代模型的定制支持。 |
WebSocket | JSON start 消息的参数 |
同步 HTTP | POST /v1/recognize 方法的查询参数 |
异步 HTTP | POST /v1/recognitions 方法的查询参数 |
inactivity_timeout
(可选)整数,用于指定服务不活动状态超时的秒数。 不活动状态表示服务在流式音频中未检测到语音。 缺省值为 30 秒。 使用 -1
指示无穷大。 有关更多信息,请参阅不活动状态超时。
可用性和用途 | 描述 |
---|---|
大型语音模型 | 一般适用于所有语言。 |
上一代模型 | 一般适用于所有语言。 |
下一代模型 | 一般适用于所有语言。 |
WebSocket | JSON start 消息的参数 |
同步 HTTP | POST /v1/recognize 方法的查询参数 |
异步 HTTP | POST /v1/recognitions 方法的查询参数 |
interim_results
(可选)布尔值,用于指示服务返回在最终文字记录之前可能会更改的中间假设。 缺省情况下 (false
),不会返回中间结果。 中间结果仅可用于 WebSocket 接口。 有关更多信息,请参阅中间结果。
可用性和用途 | 描述 |
---|---|
大型语音模型 | 不可用。 |
上一代模型 | 一般适用于所有语言。 |
下一代模型 | 通常可用于支持低等待时间的下一代模型,但前提是 interim_results 和 low_latency 参数都设置为 true 。 有关更多信息,请参阅 请求临时结果和低等待时间。 |
WebSocket | JSON start 消息的参数 |
同步 HTTP | 不支持 |
异步 HTTP | 不支持 |
keywords
(可选)关键字字符串的数组,服务会在输入音频中识别这些字符串。 缺省情况下,不会执行关键字识别。 有关更多信息,请参阅关键字识别。
可用性和用途 | 描述 |
---|---|
大型语音模型 | 不可用。 |
上一代模型 | 一般适用于所有语言。 |
下一代模型 | 不可用。 |
WebSocket | JSON start 消息的参数 |
同步 HTTP | POST /v1/recognize 方法的查询参数 |
异步 HTTP | POST /v1/recognitions 方法的查询参数 |
keywords_threshold
(可选)介于 0.0 到 1.0 之间的双精度值,用于指示关键字正匹配的最小阈值。 缺省情况下,不会执行关键字识别。 有关更多信息,请参阅关键字识别。
可用性和用途 | 描述 |
---|---|
大型语音模型 | 不可用。 |
上一代模型 | 一般适用于所有语言。 |
下一代模型 | 不可用。 |
WebSocket | JSON start 消息的参数 |
同步 HTTP | POST /v1/recognize 方法的查询参数 |
异步 HTTP | POST /v1/recognitions 方法的查询参数 |
language_customization_id
(可选)定制语言模型的定制标识,该模型包含您的领域中的术语。 缺省情况下,不会使用定制模型。 有关更多信息,请参阅 使用定制语言模型进行语音识别。
可用性和用途 | 描述 |
---|---|
大型语音模型 | 一般适用于所有语言。 |
上一代模型 | 已普遍可用或为 Beta 功能,可用于支持语言模型定制的所有模型。 有关更多信息,请参阅 对前代模型的定制支持。 |
下一代模型 | 已普遍可用或为 Beta 功能,可用于支持语言模型定制的所有模型。 有关更多信息,请参阅 下一代模型的定制支持。 |
WebSocket | /v1/recognize 连接请求的查询参数 |
同步 HTTP | POST /v1/recognize 方法的查询参数 |
异步 HTTP | POST /v1/recognitions 方法的查询参数 |
low_latency
一个可选布尔值,用于指示服务是否以可能牺牲转录准确性为代价更快地生成结果。 缺省情况下 (false
),未启用低等待时间。 有关更多信息,请参阅 低等待时间。
可用性和用途 | 描述 |
---|---|
大型语音模型 | 不可用。 |
上一代模型 | 不可用。 |
下一代模型 | 适用于支持低延迟的下一代模型的一般可用或 Beta。 有关更多信息,请参阅 支持的下一代语言模型。 |
WebSocket | JSON start 消息的参数 |
同步 HTTP | POST /v1/recognize 方法的查询参数 |
异步 HTTP | POST /v1/recognitions 方法的查询参数 |
max_alternatives
(可选)整数,用于指定服务返回的最大替代假设数。 缺省情况下,服务会返回单个最终假设。 有关更多信息,请参阅最大替代项数。
可用性和用途 | 描述 |
---|---|
大型语音模型 | 不可用。 |
上一代模型 | 一般适用于所有语言。 |
下一代模型 | 一般适用于所有语言。 |
WebSocket | JSON start 消息的参数 |
同步 HTTP | POST /v1/recognize 方法的查询参数 |
异步 HTTP | POST /v1/recognitions 方法的查询参数 |
model
可选型号,可指定音频的播放语言和采样率:宽带/多媒体或窄带/电话。 缺省情况下,会使用 en-US_BroadbandModel
。 有关更多信息,请参阅 使用模型进行语音识别。
可用性和用途 | 描述 |
---|---|
大型语音模型 | 一般适用于所有语言。 |
上一代模型 | 一般适用于所有语言。 |
下一代模型 | 一般适用于所有语言。 |
WebSocket | /v1/recognize 连接请求的查询参数 |
同步 HTTP | POST /v1/recognize 方法的查询参数 |
异步 HTTP | POST /v1/recognitions 方法的查询参数 |
processing_metrics
(可选)布尔值,用于指示服务是否返回有关其输入音频处理的度量值。 缺省情况下 (false
),服务不会返回处理度量值。 有关更多信息,请参阅处理度量值。
可用性和用途 | 描述 |
---|---|
大型语音模型 | 不可用。 |
上一代模型 | 一般适用于所有语言。 |
下一代模型 | 不可用。 |
WebSocket | JSON start 消息的参数 |
同步 HTTP | 不支持 |
异步 HTTP | POST /v1/recognitions 方法的查询参数 |
processing_metrics_interval
(可选)浮点值,至少为 0.1,用于指示服务将返回处理度量值的时间间隔。 如果 processing_metrics
参数为 true
,那么缺省情况下服务每 1.0 秒返回一次处理度量值。 有关更多信息,请参阅处理度量值。
可用性和用途 | 描述 |
---|---|
大型语音模型 | 不可用。 |
上一代模型 | 一般适用于所有语言。 |
下一代模型 | 不可用。 |
WebSocket | JSON start 消息的参数 |
同步 HTTP | 不支持 |
异步 HTTP | POST /v1/recognitions 方法的查询参数 |
profanity_filter
(可选)布尔值,用于指示服务是否从文字记录中检剔不雅言辞。 缺省情况下 (true
),会过滤掉文字记录中的不雅言辞。 有关更多信息,请参阅不雅言辞过滤。
可用性和用途 | 描述 |
---|---|
大型语音模型 | 一般适用于所有语言。 |
上一代模型 | 一般适用于所有语言。 |
下一代模型 | 一般适用于所有语言。 |
WebSocket | JSON start 消息的参数 |
同步 HTTP | POST /v1/recognize 方法的查询参数 |
异步 HTTP | POST /v1/recognitions 方法的查询参数 |
redaction
(可选)布尔值,用于指示服务是否对文字记录中包含三个或更多个连续位的数字数据进行编辑。 缺省情况下 (false
),不会编辑数字数据。 如果将 redaction
参数设置为 true
,那么服务会自动将 smart_formatting
参数强制为 true
,并且会禁用 keywords
,keywords_threshold
,max_alternatives
和 (对于 WebSocket 接口) interim_results
参数。 有关更多信息,请参阅数字编辑。
可用性和用途 | 描述 |
---|---|
大型语音模型 | 针对英语和日语的 Beta。 |
上一代模型 | Beta版支持美式英语、日语和韩语。 |
下一代模型 | Beta版支持美式英语、日语和韩语。 |
WebSocket | JSON start 消息的参数 |
同步 HTTP | POST /v1/recognize 方法的查询参数 |
异步 HTTP | POST /v1/recognitions 方法的查询参数 |
smart_formatting
(可选)布尔值,用于指示服务是否将最终文字记录中的日期、时间、数字、货币和类似值转换为更传统的表示法。 对于美国英语,此功能还会将特定关键字短语转换为标点符号。 缺省情况下 (false
),不会执行智能格式设置。 有关更多信息,请参阅智能格式设置。
可用性和用途 | 描述 |
---|---|
大型语音模型 | 一般适用于所有语言。 |
上一代模型 | 一般可用于美式英语,日语和西班牙语 (所有方言)。 |
下一代模型 | 一般可用于美式英语,日语和西班牙语 (所有方言)。 当识别出美式英语音频时,en-WW_Medical_Telephony 车型也可使用。 |
WebSocket | JSON start 消息的参数 |
同步 HTTP | POST /v1/recognize 方法的查询参数 |
异步 HTTP | POST /v1/recognitions 方法的查询参数 |
smart_formatting_version
一个可选的整数,用于指示服务是否将日期、时间、数字、货币和类似值转换为最终记录中更常规的表示形式。 更多信息,请参阅 智能格式化版本。
可用性和用途 | 描述 |
---|---|
大型语音模型 | 一般适用于除日语以外的所有语言。 |
上一代模型 | 不支持。 |
下一代模型 | 通常仅适用于美国英语 (包括 en-WW_Medical_Telephony),巴西葡萄牙语,法国法语,德语,加拿大法语和西班牙语。 |
WebSocket | JSON start 消息的参数。 服务会禁用临时结果。 |
同步 HTTP | POST /v1/recognize 方法的查询参数 |
异步 HTTP | POST /v1/recognitions 方法的查询参数 |
speaker_labels
(可选)布尔值,用于指示服务是否在多参与者交流中标识哪些人说了哪些词。 如果将 speaker_labels
参数设置为 true
,那么服务会自动强制将 timestamps
参数设置为 true
。 缺省情况下 (false
),不会返回说话者标签。 有关更多信息,请参阅说话者标签。
可用性和用途 | 描述 |
---|---|
大型语音模型 | 适用于所有语言的 Beta。 |
上一代模型 | 适用于所有语言的 Beta。 |
下一代模型 | 一般适用于所有语言。 |
WebSocket | JSON start 消息的参数 |
同步 HTTP | POST /v1/recognize 方法的查询参数 |
异步 HTTP | POST /v1/recognitions 方法的查询参数 |
speech_detector_sensitivity
(可选)介于 0.0 到 1.0 之间的浮点值,用于指示语音识别功能对输入音频中非语音事件的敏感度。 缺省值为 0.5,表示提供对非语音事件的合理敏感度级别。 有关更多信息,请参阅 语音检测器敏感度。
可用性和用途 | 描述 |
---|---|
大型语音模型 | 一般适用于所有语言。 |
上一代模型 | 除 ar-MS_BroadbandModel 、pt-BR_BroadbandModel 、zh-CN_BroadbandModel 、zh-CN_NarrowbandModel 和 de-DE_BroadbandModel 外,所有语言版本均可用。 |
下一代模型 | 一般适用于所有语言。 |
WebSocket | JSON start 消息的参数 |
同步 HTTP | POST /v1/recognize 方法的查询参数 |
异步 HTTP | POST /v1/recognitions 方法的查询参数 |
split_transcript_at_phrase_end
(可选)布尔值,用于指示是否服务基于输入的语义特征(例如,句子),将文字记录拆分为多个最终结果。 服务对语义特征的理解基于基本语言模型,这会进一步受到定制语言模型和语法的影响。 缺省情况下 (false
),服务不会生成语义拆分。 有关更多信息,请参阅在短语结束位置拆分文字记录。
可用性和用途 | 描述 |
---|---|
大型语音模型 | 不可用。 |
上一代模型 | 一般适用于所有语言。 |
下一代模型 | 一般适用于所有语言。 |
WebSocket | JSON start 消息的参数 |
同步 HTTP | POST /v1/recognize 方法的查询参数 |
异步 HTTP | POST /v1/recognitions 方法的查询参数 |
timestamps
(可选)布尔值,用于指示服务是否为文字记录中的词生成时间戳记。 缺省情况下 (false
),不会返回时间戳记。 有关更多信息,请参阅词时间戳记。
可用性和用途 | 描述 |
---|---|
大型语音模型 | 一般适用于所有语言。 |
上一代模型 | 一般适用于所有语言。 |
下一代模型 | 一般适用于所有语言。 |
WebSocket | JSON start 消息的参数 |
同步 HTTP | POST /v1/recognize 方法的查询参数 |
异步 HTTP | POST /v1/recognitions 方法的查询参数 |
Transfer-Encoding
(可选)值为 chunked
将使音频流式传输到服务。 缺省情况下,音频会在一次传递中一次性全部发送。 有关更多信息,请参阅音频传输。
可用性和用途 | 描述 |
---|---|
大型语音模型 | 一般适用于所有语言。 |
上一代模型 | 一般适用于所有语言。 |
下一代模型 | 一般适用于所有语言。 |
WebSocket | 不适用;始终流式传输 |
同步 HTTP | POST /v1/recognize 方法的请求头 |
异步 HTTP | POST /v1/recognitions 方法的请求头 |
word_alternatives_threshold
(可选)介于 0.0 到 1.0 之间的双精度值,用于指定服务报告输入音频中词的发音相似替代项的阈值。 缺省情况下,不会返回词替代项。 有关更多信息,请参阅词替代项。
可用性和用途 | 描述 |
---|---|
大型语音模型 | 不可用。 |
上一代模型 | 一般适用于所有语言。 |
下一代模型 | 不可用。 |
WebSocket | JSON start 消息的参数 |
同步 HTTP | POST /v1/recognize 方法的查询参数 |
异步 HTTP | POST /v1/recognitions 方法的查询参数 |
word_confidence
(可选)布尔值,用于指示服务是否为文字记录中的词提供置信度度量。 缺省情况下 (false
),不会返回词置信度度量。 有关更多信息,请参阅词置信度。
可用性和用途 | 描述 |
---|---|
大型语音模型 | 一般适用于所有语言。 |
上一代模型 | 一般适用于所有语言。 |
下一代模型 | 一般适用于所有语言。 |
WebSocket | JSON start 消息的参数 |
同步 HTTP | POST /v1/recognize 方法的查询参数 |
异步 HTTP | POST /v1/recognitions 方法的查询参数 |
X-Watson-Learning-Opt-Out
IBM Cloud
(可选)布尔值,指示是否选择性停用 IBM 为了针对未来用户改进服务而执行的缺省请求日志记录。 要阻止 IBM 访问您的数据以进行一般服务改进,请为此参数指定 true
。 如果选择退出,那么服务将记录请求中的 no 用户数据,而不会将任何音频或文本保存到磁盘。 您还可以在帐户级别选择性停用。 有关更多信息,请参阅请求日志记录。
可用性和用途 | 描述 |
---|---|
大型语音模型 | 一般适用于所有语言。 |
上一代模型 | 一般适用于所有语言。 |
下一代模型 | 一般适用于所有语言。 |
WebSocket | x-watson-learning-opt-out 连接请求的 /v1/recognize 查询参数 |
同步 HTTP | 每个请求的请求头 |
异步 HTTP | 每个请求的请求头 |
X-Watson-Metadata
(可选)字符串,用于将客户标识与为识别请求传递的数据相关联。 此参数接受自变量 customer_id={id}
。 缺省情况下,没有客户标识与数据相关联。 有关更多信息,请参阅信息安全。
可用性和用途 | 描述 |
---|---|
大型语音模型 | 一般适用于所有语言。 |
上一代模型 | 一般适用于所有语言。 |
下一代模型 | 一般适用于所有语言。 |
WebSocket | x-watson-metadata 连接请求的 /v1/recognize 查询参数。 (您必须对参数URL。 例如,customer_id%3dmy_customer_ID 。) |
同步 HTTP | POST /v1/recognize 请求的请求头 |
异步 HTTP | POST /v1/register_callback 和 POST /v1/recognitions 请求的请求头 |