IBM Cloud Docs
关于 Speech to Text

关于 Speech to Text

IBM Watson® Speech to Text 服务针对您的应用提供了语音转录功能。 服务利用机器学习将语法、语言结构以及音频和声音信号构成组合在一起,从而准确地转录人声。 随着服务接收更多语音,服务会持续对其转录进行更新和优化。

该服务提供了 API,使其适用于输入为语音、输出为文本记录的任何应用。 它可以用于语音自动聊天机器人、客服呼叫中心分析工具和多媒体转录等应用。 此外,对嵌入式设备进行声音控制、转录会议和电话会议,以及口述消息和便条等也是可能的应用。

此服务对于需要从呼叫中心音频中抽取高质量语音文字记录的客户来说是理想的选择。 金融服务、医疗卫生、保险和电信等行业的客户可以开发用于客户关怀、客户声音、座席支持和其他解决方案的云原生应用程序。

产品版本

Speech to Text 可以部署为受管云服务,也可以安装在本地。 本文档描述如何使用这两个版本的产品。 仅适用于一个版本的主题,段落和示例等信息明确表示:

语音识别

Speech to Text 服务提供了三种语音识别接口:WebSocket 接口、同步 HTTP 接口和异步 HTTP 接口。 这些接口让您指定音频的语言及其格式和采样率。 它们还提供了许多参数,您可以使用这些参数来定制请求音频的方式以及服务在响应时发送的信息。 您还可以请求有关服务对音频的分析和音频本身的度量值。

定制

该服务提供了一个定制接口,可用于调整语音识别,以满足您的语言和声学需求。 可以使用特定于领域的术语来扩展模型的词汇表,或者调整模型以适应音频的声学特征。 您还可以添加语法来限制服务可识别的短语。 有关更多信息,请参阅服务功能中的定制服务

语言支持

该服务支持许多语言和方言:

  • 阿拉伯语(现代标准)
  • 中文(普通话)
  • 捷克语
  • 荷兰语 (比利时和荷兰)
  • 英语(澳大利亚、印度、英国和美国)
  • 法语 (加拿大和法国)
  • 德语
  • 印地语 (印度语)
  • 意大利语
  • 日语
  • 韩语
  • 葡萄牙语(巴西)
  • 西班牙语 (卡斯蒂利亚语和拉丁美洲)
  • 瑞典语

有关受支持语言以及使用大型语音模型,先前和下一代模型进行语音识别的更多信息,请参阅 使用语言和模型

音频支持

该服务接受多种流行格式的音频转录:

  • 使用 Opus 或 Vorbis 编码解码器的 Ogg 或 Web 媒体 (WebM) 音频
  • MP3(或 MPEG)
  • 波形音频文件格式 (WAV)
  • 自由无损音频编码解码器 (FLAC)
  • 线性 16 位脉冲编码调制 (PCM)
  • G.729
  • A-Law
  • mu-law(或 u-law)
  • 基本音频

有关受支持的音频格式及其特征的更多信息,请参阅 使用音频格式

集成用例

您可以将 Speech to Text 服务与其他 Watson 服务配合使用,以创建具有更大作用域和功能的应用程序:

  • 电话上的 AI 助手-通过 IBM® watsonx™ Assistant 电话集成消除挂起时间,提高客户满意度。 通过预先构建的 watsonx Assistant,Speech to Text和 IBM Watson® Text to Speech集成,为客户提供实时支持。
  • 分析客户呼叫-发现模式并对客户与呼叫中心代理之间的电话呼叫转录进行根本原因分析。 使用 Speech to Text转录音频,然后使用 IBM Watson® Natural Language Understanding分析转录。
  • 支持代理程序-提供实时信息以提高代理程序效率和关注度。 使用 Speech to Text 来实时转录调用,然后使用 IBM Watson® Discovery 自动显示相关信息,以便代理程序可以关注客户而不是搜索。

Beta 功能

IBM 偶尔会发布分类为 Beta 的功能和语言支持。 提供了此类功能部件,以便您可以评估其功能。 它们可能不稳定,可随时更改或在短时间内移除。 它们并非旨在用于生产环境中。

测试版功能部件可能无法提供与一般可用功能部件相同的性能或兼容性级别。 一般可用的功能部件可供在生产环境中使用。

定价

IBM Cloud

该服务提供多种定价套餐,以满足您的使用和应用需求:

  • 有关定价套餐和常见问题解答的常规信息,请参阅 定价常见问题解答
  • 有关定价套餐或要购买套餐的更多信息,请参阅 IBM Cloud® 目录中的 Speech to Text 服务。