IBM Cloud Docs
關於 Speech to Text

關於 Speech to Text

IBM Watson® Speech to Text 服務為應用程式提供語音轉錄功能。 該服務運用機器學習來結合文法知識、語言結構以及音訊和語音信號組合,以精確地轉錄人聲。 它會隨著收到更多的語音,而持續地更新及調整其轉錄。

服務提供數個 API,適用於以語音作為輸入並且以文字記錄作為輸出的任何應用程式。 它可用於語音自動化聊天機器人、客戶服務電話中心的分析工具,以及多媒體轉錄等應用。 對內嵌裝置的語音控制、轉錄會議和電話會議,以及指定訊息和注意事項也是可能的應用,還有許多其他應用方式。

此服務對於需要從客服中心音訊擷取高品質語音文字記錄的客戶來說是理想的選擇。 金融服務、醫療衛生、保險和電信等行業的客戶可以開發用於客戶關懷、客戶語音、專員協助和其他解決方案的雲端原生應用程式。

產品版本

Speech to Text 可以部署為受管理雲端服務,也可以安裝在內部部署中。 本文件說明如何使用這兩個版本的產品。 只適用於一個版本的主題、段落及範例等資訊明確表示:

語音辨識

Speech to Text 服務提供三個用於語音辨識的介面:WebSocket 介面、同步 HTTP 介面及非同步 HTTP 介面。 這些介面可讓您指定音訊的語言,以及其格式和取樣率。 它們也會提供許多參數,您可以用來修改您要求音訊的方式,以及服務在回應中傳送的資訊。 您也可以要求有關音訊之服務分析及音訊本身的度量值。

自訂作業

服務會提供自訂作業介面,您可以用來針對您的語言和聲學需求而調整語音辨識。 您可以使用領域專用術語來擴充模型的詞彙,或針對音訊的聲音特徵來調整模型。 您也可以新增文法,以限制服務可以辨識的詞組。 如需相關資訊,請參閱服務功能中的自訂服務

語言支援

服務支援許多語言及用語:

  • 阿拉伯文(現代標準)
  • 中文(普通話)
  • 捷克文
  • 荷蘭文 (比利時及荷蘭)
  • 英語 (澳洲、印度、英國及美國)
  • 法文 (加拿大和法國)
  • 德文
  • 北印度文 (印度)
  • 義大利文
  • 日文
  • 韓文
  • 葡萄牙文 (巴西)
  • 西班牙文 (卡斯提亞和拉丁美洲)
  • 瑞典文

如需支援的語言及使用大型語音模型、先前及下一代模型進行語音辨識的相關資訊,請參閱 使用語言及模型

音訊支援

服務接受音訊以多種熱門格式進行轉錄:

  • Ogg 或「Web 媒體 (WebM)」音訊搭配 Opus 或 Vorbis 轉碼器
  • MP3(或 MPEG)
  • Waveform Audio File Format (WAV)
  • 自由無失真音訊轉碼器 (FLAC)
  • 線性 16 位元脈衝編碼調變 (PCM)
  • G.729
  • A-Law
  • Mu-law(或 u-law)
  • 基本音訊

如需受支援音訊格式及其性質的相關資訊,請參閱 使用音訊格式

整合使用案例

您可以將 Speech to Text 服務與其他 Watson 服務搭配使用,以建立具有更大範圍及功能的應用程式:

  • 電話上的 AI 助理-利用 IBM® watsonx™ Assistant 電話整合來消除保留時間並提高客戶滿意度。 透過預先建置的 watsonx Assistant、Speech to Text及 IBM Watson® Text to Speech整合,為客戶提供即時支援。
  • 分析客戶通話-在客戶與客服中心代理人之間的電話通話轉錄上,解除涵蓋型樣並進行主要原因分析。 使用 Speech to Text轉錄音訊,然後使用 IBM Watson® Natural Language Understanding分析轉錄。
  • 支援代理程式-提供即時資訊以改善代理程式效率及焦點。 使用 Speech to Text 即時轉錄呼叫,然後使用 IBM Watson® Discovery 自動顯示相關資訊,讓您的代理程式可以聚焦於客戶而非搜尋。

測試版特性

IBM 有時會發行分類為測試版的特性和語言支援。 提供這類特性,以便您可以評估其功能。 它們可能不穩定,可能會在短時間內變更或移除。 它們並非預期在正式作業環境中使用。

測試版特性可能無法提供與正式發行特性相同的效能或相容性層次。 正式發行的特性已備妥,可在正式作業環境中使用。

定價

IBM Cloud

服務提供多個定價方案,以符合您的使用和應用程式需求:

  • 如需定價方案及常見問題回答的一般資訊,請參閱 定價常見問題
  • 如需定價方案或購買方案的相關資訊,請參閱 IBM Cloud® 型錄中的 Speech to Text 服務。