IBM Cloud Docs
Releaseinformationen für Text to Speech for IBM Cloud Pak for Data

Releaseinformationen für Text to Speech for IBM Cloud Pak for Data

IBM Cloud Pak for Data

Im Folgenden werden Funktionen und Änderungen für die einzelnen Releases und Aktualisierungen von installierten oder On-Premise-Instanzen von IBM Watson® Text to Speech for IBM Cloud Pak for Data aufgeführt. Sofern nicht anders angegeben, sind alle Änderungen mit früheren (älteren) Versionen kompatibel und werden für alle neuen und vorhandenen Anwendungen automatisch und transparent verfügbar gemacht.

Informationen zu bekannten Einschränkungen des Service finden Sie unter Bekannte Einschränkungen.

Informationen zu Releases und Aktualisierungen des Service für IBM Cloud finden Sie unter Releaseinformationen für Text to Speech for IBM Cloud.

30. Oktober 2024 (Version 4.8.7 )

Version 4.8.7 ist jetzt verfügbar
Speech to Text für IBM Cloud Pak for Data Version 4.8.7 ist jetzt verfügbar. Weitere Informationen finden Sie unter Watson Sprachdienste auf IBM Cloud Pak for Data.

25. September 2024 (Version 5.0.3 )

Version 5.0.3 ist jetzt verfügbar
Speech to Text für IBM Cloud Pak for Data Version 5.0.3 ist jetzt verfügbar. Weitere Informationen finden Sie unter Watson Sprachdienste auf IBM Cloud Pak for Data.

28. August 2024 (Version 4.8.6 )

Version 4.8.6 ist jetzt verfügbar
Speech to Text für IBM Cloud Pak for Data Version 4.8.6 ist jetzt verfügbar. Weitere Informationen finden Sie unter Watson Sprachdienste auf IBM Cloud Pak for Data.

28. August 2024 (Version 5.0.2 )

Version 5.0.2 ist jetzt verfügbar
Speech to Text für IBM Cloud Pak for Data Version 5.0.2 ist jetzt verfügbar. Weitere Informationen finden Sie unter Watson Sprachdienste auf IBM Cloud Pak for Data.

31. Juli 2024 (Version 5.0.1 )

Version 5.0.1 ist jetzt verfügbar
Speech to Text für IBM Cloud Pak for Data Version 5.0.1 ist jetzt verfügbar. Weitere Informationen finden Sie unter Watson Sprachdienste auf IBM Cloud Pak for Data.

19. Juni 2024 (Version 5.0.0 )

Version 5.0.0 ist jetzt verfügbar
Speech to Text für IBM Cloud Pak for Data Version 5.0.0 ist jetzt verfügbar. Weitere Informationen finden Sie unter Watson Sprachdienste auf IBM Cloud Pak for Data.

24. April 2024 (Version 4.8.5 )

Version 4.8.5 ist jetzt verfügbar
Speech to Text für IBM Cloud Pak for Data Version 4.8.5 ist jetzt verfügbar. Weitere Informationen finden Sie unter Watson Sprachdienste auf IBM Cloud Pak for Data.

27. März 2024 (Version 4.8.4 )

Version 4.8.4 ist jetzt verfügbar
Speech to Text für IBM Cloud Pak for Data Version 4.8.4 ist jetzt verfügbar. Weitere Informationen finden Sie unter Watson Sprachdienste auf IBM Cloud Pak for Data.

28. Februar 2024 (Version 4.8.3 )

Version 4.8.3 ist jetzt verfügbar
Speech to Text für IBM Cloud Pak for Data Version 4.8.3 ist jetzt verfügbar. Weitere Informationen finden Sie unter Watson Sprachdienste auf IBM Cloud Pak for Data.

31. Januar 2024 (Version 4.8.2 )

Version 4.8.2 ist jetzt verfügbar
Speech to Text für IBM Cloud Pak for Data Version 4.8.2 ist jetzt verfügbar. Weitere Informationen finden Sie unter Watson Sprachdienste auf IBM Cloud Pak for Data.

30. November 2023 (Version 4.8.0 )

Version 4.8.0 ist jetzt verfügbar
Speech to Text für IBM Cloud Pak for Data Version 4.8.0 ist jetzt verfügbar. Weitere Informationen finden Sie unter Watson Sprachdienste auf IBM Cloud Pak for Data.

27. September 2023 (Version 4.7.3 )

Version 4.7.3 ist jetzt verfügbar
Speech to Text für IBM Cloud Pak for Data Version 4.7.3 ist jetzt verfügbar. Weitere Informationen finden Sie unter Watson Sprachdienste auf IBM Cloud Pak for Data.

28. Juli 2023 (Version 4.7.1 )

Version 4.7.1 ist jetzt verfügbar
Speech to Text für IBM Cloud Pak for Data Version 4.7.1 ist jetzt verfügbar. Weitere Informationen finden Sie unter Watson Sprachdienste auf IBM Cloud Pak for Data.

9. Juni 2023 (Version 4.7.0 )

Version 4.7.0 ist jetzt verfügbar
Speech to Text für IBM Cloud Pak for Data Version 4.7.0 ist jetzt verfügbar. Weitere Informationen finden Sie unter Watson Sprachdienste auf IBM Cloud Pak for Data.

2. Mai 2023 (Version 4.6.5)

Version 4.6.5 ist jetzt verfügbar

Text to Speech für IBM Cloud Pak for Data Version 4.6.5 ist jetzt verfügbar. Diese Version unterstützt die Versionen IBM Cloud Pak for Data, 4.6.x und Red Hat OpenShift, 4.10 und 4.12. Weitere Informationen finden Sie unter Watson Sprachdienste auf IBM Cloud Pak for Data.

Neue australische englische expressive neuronale Stimmen

Der Service unterstützt jetzt zwei neue expressive neuronale Stimmen für australisches Englisch:

  • en-AU_HeidiExpressive
  • en-AU_JackExpressive

Expressive neuronale Stimmen bieten natürlich klingende Sprache, die außergewöhnlich klar, knackig und flüssig ist. Die neuen Stimmen sind allgemein verfügbar (GA) für den Produktionseinsatz. Sie unterstützen die Verwendung von Standard-IPA-Symbolen (IPA = International Phonetic Alphabet) und IBM Symbolic Phonetic Representation (SPR). Weitere Informationen finden Sie

Neue koreanische erweiterte neuronale Stimme

Der Service unterstützt jetzt eine neue erweiterte neuronale Stimme für Koreanisch: ko-KR_JinV3Voice. Die neue Stimme ist allgemein verfügbar (GA) für den Produktionseinsatz. Es unterstützt die Verwendung sowohl von Standard-IPA-Symbolen (IPA = International Phonetic Alphabet) als auch von IBM Symbolic Phonetic Representation (SPR)-Symbolen. Weitere Informationen finden Sie

Neue Betaversion Niederlande Niederländisch erweiterte neuronale Stimme

Der Service unterstützt jetzt eine neue erweiterte neuronale Frauenstimme für Niederländisch (Niederlande): nl-NL_MerelV3Voice Es unterstützt die Verwendung sowohl von Standard-IPA-Symbolen (IPA = International Phonetic Alphabet) als auch von IBM Symbolic Phonetic Representation (SPR)-Symbolen.

Die neue Stimme ist Beta-Funktionalität bis zum Abschluss der Unterstützung für SSML. Im ersten Release unterstützt die Stimme die Verwendung der folgenden SSML-bezogenen Funktionalität nicht:

  • Das Element <prosody> mit einer Sprachsyntheseanforderung
  • Die Parameter rate_percentage und pitch_percentage mit allen Sprachsyntheseanforderungen
  • Element <mark> mit einer WebSocket-Sprachsyntheseanforderung
  • Parameter timings der JSON-Textnachricht mit einer WebSocket-Sprachsyntheseanforderung

Weitere Informationen über die neue Stimme, ihre Unterstützung für IPA-und SPR-Symbole und die Migration von den veralteten niederländischen neuronalen Stimmen auf die neue Stimme finden Sie unter

Neue Umgebungsvariable für angepasste Ressource für Speech-Services

Die Dokumentation enthält jetzt Anweisungen zum Erstellen einer Umgebungsvariablen namens ${CUSTOM_RESOURCE_SPEECH}. Sie hängen die neue Variable an das Script cpd_vars.sh an und verwenden das Script als Quelle für die Verwendung der Variablen in Ihrer Umgebung. Weitere Informationen finden Sie unter Information you need to complete this task in Installing Watson Speech servicesoder in einem der Upgradethemen für die Speech-Services.

Fehlerkorrektur: Französisch-kanadische Stimme verarbeitet numerische Zeiten jetzt richtig

Fehlerkorrektur: Die kanadischen Stimmen in Französisch sprechen jetzt Zeiten wie 19:41 richtig aus. Bisher wurden die Stimmen ausgelassen Elemente der Zeit in der synthetisierten Audio.

Fehlerkorrektur: Japanische Stimme fügt nicht mehr unerwartetes Audio ein

Fehlerkorrektur: Die japanische Stimme fügt nicht mehr unerwartete Audiodaten in Sprachsyntheseergebnisse ein. Bisher wurden in bestimmten Fällen zusätzliche Audiodaten eingefügt.

Fehlerkorrektur: Aktualisieren Sie koreanische phonetische Symbole in der Dokumentation

Fehlerkorrektur: In der Dokumentation für koreanische SPR-Symbole werden Symbole mit zwei Zeichen für Konsonanten jetzt in einfache Anführungszeichen eingeschlossen, wodurch sie zu einem einzigen Symbol werden. Zuvor wurden sie als zwei separate Symbole ohne Anführungszeichen angezeigt. Weitere Informationen finden Sie unter Konsonanten(Koreanisch).

Aktualisierte Dokumentation für IBM SPR-Symbole

Die Übersichtsdokumentation für IBM SPR-Symbole wurde aktualisiert, um die Verwendung von Symbolen mit mehreren Zeichen zu verdeutlichen. Weitere Informationen finden Sie unter Sprachensymbole.

Behobene Sicherheitslücken

Die folgenden Sicherheitslücken wurden behoben:

29. Februar 2023 (Version 4.6.4)

Version 4.6.4 ist jetzt verfügbar
Text to Speech für IBM Cloud Pak for Data Version 4.6.4 ist jetzt verfügbar. Diese Version unterstützt die Versionen IBM Cloud Pak for Data, 4.6.x und Red Hat OpenShift, 4.10 und 4.12. Weitere Informationen finden Sie unter Watson Sprachdienste auf IBM Cloud Pak for Data.
Wichtig: Sichern Sie Ihre Daten, bevor Sie ein Upgrade auf Version 4.6.3 oder 4.6.4 durchführen.
Wichtig: Vor einem Upgrade auf Watson Speech-Services Version 4.6.3 oder 4.6.4müssen Sie eine Sicherung Ihrer Daten erstellen. Bewahren Sie die Sicherung an einer sicheren Position auf. Weitere Informationen zum Sichern Ihrer Watson Speech-Services-Daten finden Sie unter Daten von Watson Speech-Services sichern und wiederherstellen in Watson Speech-Services verwalten. Dieses Thema enthält auch Informationen zum Zurückschreiben Ihrer Daten, falls dies erforderlich wird.
Fehlerkorrektur: Sie können jetzt die installierten Modelle und Stimmen mit den erweiterten Installationsoptionen ändern
Fehlerkorrektur: Während der Installation können Sie jetzt verschiedene Modelle oder Stimmen mit den erweiterten Installationsoptionen der Befehlszeilenschnittstelle angeben. Bisher hat der Service immer die Standardmodelle und -stimmen installiert. Die Einschränkung gilt weiterhin für Watson Speech-Services der Versionen 4.6.0, 4.6.2und 4.6.3. Informationen zur Installation von Modellen und Stimmen finden Sie unter Zusätzliche Installationsoptionen angeben in Watson Speech-Services installieren.
Zeitlimits für Lastausgleichsfunktion festlegen
Für Watson Speech-Services müssen Sie die Zeitlimiteinstellungen für die Lastausgleichsfunktion sowohl für den Server als auch für den Client in 300 Sekunden ändern. Diese Einstellungen stellen sicher, dass Spracherkennungsanforderungen mit langer Laufzeit, d. h. Anforderungen mit langen oder schwierigen Audiodaten, ausreichend Zeit für die Ausführung haben. Weitere Informationen finden Sie unter Informationen, die Sie zum Ausführen dieser Aufgabe benötigen in Watson Speech-Services installieren.
Aktualisierte Dokumentation für IBM SPR-Symbole
Die Übersichtsdokumentation für IBM SPR-Symbole wurde aktualisiert, um die Verwendung von Symbolen mit mehreren Zeichen zu verdeutlichen. Weitere Informationen finden Sie unter Sprachtonsymbole.
Behobene Sicherheitslücken
Die folgenden Sicherheitslücken wurden behoben:

23. Februar 2023 (Version 4.6.3)

Version 4.6.3 ist jetzt verfügbar

Text to Speech für IBM Cloud Pak for Data Version 4.6.3 ist jetzt verfügbar. Diese Version unterstützt IBM Cloud Pak for Data Version 4.6.x und Red Hat OpenShift Version 4.10. Red Hat OpenShift Version 4.8 wird nicht mehr unterstützt. Weitere Informationen finden Sie unter Watson Sprachdienste auf IBM Cloud Pak for Data.

Bekanntes Problem: Sie können die installierten Modelle und Stimmen mit den erweiterten Installationsoptionen nicht ändern.

Bekannte Probleme: Sie können derzeit keine anderen Modelle oder Stimmen mit den erweiterten Installationsoptionen angeben. Der Service installiert immer die Standardmodelle und -stimmen. Informationen zum Ändern der Modelle nach der Installation finden Sie unter Modelle und Stimmen für Ihre Watson Speech-Services aktualisieren im Abschnitt Verwaltung von Watson Speech-Services auf IBM Cloud Pak for Data.

Bekanntes Problem: Upgrade auf Version 4.6.3 kann fehlschlagen

Bekanntes Problem: Beim Upgrade auf Version 4.6.3kann das Löschen des Sicherungsjobs MinIO nach Abschluss fehlschlagen. In diesem Fall besteht die Lösung darin, den Job zu löschen, nach dem das Upgrade normal fortgesetzt wird. Führen Sie die folgenden Schritte aus, um das Problem zu beheben.

  1. Um zu bestimmen, ob der Sicherungsjob MinIO wiederhergestellt wird, geben Sie den folgenden Befehl aus:

    oc get job --namespace {${PROJECT_CPD_INSTANCE} | grep speech-cr-ibm-minio-backup
    

    Der Job MinIO, der nicht gelöscht wird, wird durch einen Eintrag im folgenden Format angegeben:

    speech-cr-ibm-minio-backup   1/1   3m25s   1d
    
  2. Geben Sie den folgenden Befehl aus, um den Sicherungsjob MinIO zu löschen:

    oc delete job speech-cr-ibm-minio-backup --namespace ${PROJECT_CPD_INSTANCE}
    

Nach dem Löschen des Sicherungsjobs wird das Upgrade fortgesetzt und abgeschlossen.

Zusätzliche Informationen zum Arbeiten mit Serviceinstanzen

Die Dokumentation enthält jetzt Informationen zur Erstellung einer Serviceinstanz mit der Befehlszeilenschnittstelle (cpl-cli) und zur Verwaltung von Serviceinstanzen. Weitere Informationen finden Sie in den folgenden Abschnitten zu Watson Speech-Services auf IBM Cloud Pak for Data:

    • Watson Speech-Serviceinstanz erstellen* unter Konfiguration nach der Installation
    • Watson Speech-Serviceinstanzen verwalten* unter Verwalten
Fehlerkorrektur: Die Betaversion "Tune by Example" ist jetzt verfügbar

Fehlerkorrektur: Die Beta-Funktion 'Tune by example' ist jetzt für Text to Speech für IBM Cloud Pak for Dataverfügbar. Bisher war es nicht möglich, Lautsprechermodelle zu erstellen. Weitere Informationen zu dem Feature, das für U.Sverfügbar ist. Nur englische Stimmen, siehe Tune by Example.

Fehlerkorrektur: Die Angabe großer Kardinalzahlen mit dem Element <say-as> führt nicht mehr zu Fehlern bei englischen Stimmen

Fehlerkorrektur: Sie können jetzt das Element <say-as> verwenden, um große Zahlen als Kardinalzahlen auszusprechen. Bisher konnte das Einschließen einer großen Zahl in das Element <say-as> mit dem Attribut interpret-as="cardinal" dazu führen, dass die Sprachsynthese für englische Stimmen fehlschlägt. Beispielsweise könnte <say-as interpret-as="cardinal">3,200</say-as> dazu führen, dass der Service einen Fehler generiert. Weitere Informationen finden Sie unter cardinal im Abschnitt SSML-Elemente.

Fehlerkorrektur: Homonyme und andere Wörter werden nun korrekt von englischen Stimmen ausgesprochen

Fehlerkorrektur: Der Service spricht jetzt Homonyme und andere Wörter basierend auf ihrem Kontext im englischen Text, der synthetisiert werden soll, korrekt aus. Bisher konnten Wörter wie advocate und wifi von englischen Stimmen falsch ausgesprochen werden.

Sicherheitslücke behoben

Die folgende Sicherheitslücke wurde geschlossen:

30. Januar 2023 (Version 4.6.2)

Version 4.6.2 ist jetzt verfügbar

Text to Speech für IBM Cloud Pak for Data Version 4.6.2 ist jetzt verfügbar. Diese Version unterstützt die Versionen IBM Cloud Pak for Data, 4.6.x und Red Hat OpenShift, 4.8 und 4.10. Weitere Informationen finden Sie unter Watson Sprachdienste auf IBM Cloud Pak for Data.

Die angepasste Ressource enthält jetzt eine neue Eigenschaft fileStorageClass

Die angepasste Ressource für die Watson Speech-Services enthält jetzt zusätzlich zur vorhandenen Eigenschaft blockStorageClass eine Eigenschaft fileStorageClass. Sie geben Block-und Dateispeicherklassen an, wenn Sie einen Service installieren oder ein Upgrade für einen Service durchführen. Während des Upgrades von einer früheren Version wird die neue Eigenschaft automatisch mit der Option --file_storage_class im Befehl cli manage apply-cr zur angepassten Ressource hinzugefügt.

Weitere Informationen zu den verfügbaren Block-und Dateispeicherklassen, die Sie mit den einzelnen unterstützten Speicherlösungen verwenden können, finden Sie in der Tabelle Speicheranforderungen unter Informationen, die Sie für diese Task benötigen auf der Seite " Watson Speech-Services installieren" in Watson Speech-Services unter IBM Cloud Pak for Data.

Zusätzliche Informationen zur Bereitstellung einer Serviceinstanz

Die Dokumentation enthält jetzt Informationen zur programmgesteuerten Erstellung einer Serviceinstanz. Es enthält auch Beispiele für das Auflisten von Serviceinstanzen und Löschen einer Serviceinstanz. Weitere Informationen finden Sie unter * Watson Speech-Services-Instanz erstellen* in der Dokumentation Setup nach der Installation unter Watson Speech-Services auf IBM Cloud Pak for Data.

Serverseitige Verschlüsselung ist für den Datenspeicher MinIO aktiviert

Die Speech-Services haben jetzt die serverseitige Verschlüsselung für Objektspeicher im MinIO-Datenspeicher aktiviert. Für Sie ist keine Aktion erforderlich.

Änderung an Audit-Webhooks

Die Speech-Services haben die Webhook-Abhängigkeit für die Prüfung entfernt. Die Services schreiben jetzt Prüfereignisse direkt auf den Server. Nach dem Upgrade auf Version 4.6.2können einige Webhook-Ressourcen verbleiben, bis alle Services die Abhängigkeit entfernen können. Die verbleibenden Ressourcen werden in einem zukünftigen Release entfernt. Für Sie ist keine Aktion erforderlich.

Neue ausdrucksstarke neuronale Stimmen für amerikanisches Englisch

Der Service bietet vier neue expressive neuronale Stimmen für amerikanisches Englisch:

  • en-US_AllisonExpressive
  • en-US_EmmaExpressive
  • en-US_LisaExpressive
  • en-US_MichaelExpressive

Expressive neuronale Stimmen bieten natürlich klingende Sprache, die außergewöhnlich klar, knackig und flüssig ist. Die neuen Stimmen sind allgemein verfügbar (GA) für den Produktionseinsatz. Sie unterstützen die Verwendung von Standard-IPA-Symbolen (IPA = International Phonetic Alphabet) und IBM Symbolic Phonetic Representation (SPR). Weitere Informationen finden Sie

Neue Sprechstile mit expressiven neuronalen Stimmen

Die expressiven neuronalen Stimmen bestimmen die Stimmung des Textes aus dem Kontext seiner Wörter und Phrasen. Die Rede, die sie produzieren, spiegelt neben einem sehr dialogorientierten Stil die Stimmung des Textes wider. Aber Sie können die natürlichen Tendenzen der Stimmen verschönern, indem Sie angeben, dass der gesamte oder ein Teil des Textes einen der folgenden Sprechstile hervorheben soll:

  • Fröhlich-Drückt Glück und gute Nachrichten aus.
  • Empathisch-äußert Empathie oder Sympathie.
  • Neutral-Drückt Objektivität und Ebenheit aus.
  • Unsicher-Drückt Verwirrung oder Unsicherheit aus.

Weitere Informationen finden Sie unter Sprechstile verwenden.

Neue Interjektionsbetonung mit expressiven neuronalen Stimmen

Bei expressiven neuronalen Stimmen erkennt der Service automatisch eine Gruppe allgemeiner Interjektionen basierend auf dem Kontext. Wenn es diese Interjektionen synthetisiert, gibt es ihnen die natürliche Betonung, die ein Mensch in normalen Gesprächen verwenden würde. Für einige der Interjections können Sie SSML verwenden, um deren Hervorhebung zu aktivieren oder zu inaktivieren. Weitere Informationen finden Sie unter Emphasizing interjections.

Neues Wort betont mit expressiven neuronalen Stimmen

Die expressiven Stimmen verwenden einen Dialogstil, der natürlich die richtige Intonation aus dem Kontext anwendet. Sie können jedoch angeben, dass mindestens ein Wort mehr oder weniger hervorgehoben werden soll. Die Spannungsänderung kann durch eine Erhöhung oder Abnahme der Tonhöhe, des Timings, der Lautstärke oder anderer akustischer Attribute angezeigt werden. Weitere Informationen finden Sie unter Emphasizing words.

Der Service erzwingt jetzt eine strengere SSML-Validierung

Der Service erzwingt jetzt eine strengere Validierung von Eingabetext, der SSML-Elemente (Speech Synthesis Markup Language) enthält. Erforderliche Elemente von Attributen müssen mit gültigen Werten angegeben werden. Andernfalls schlägt die Anforderung mit dem Fehlercode 400 fehl. Weitere Informationen zur SSML-Validierung und zu den Anforderungen, die markierungsfähiger Text erfüllen muss, finden Sie unter SSML-Validierung.

Fehlerkorrektur: Das für die Stimme en-US_MichaelExpressive aufgelistete Geschlecht ist jetzt korrekt

Fehlerkorrektur: Wenn Sie Informationen zu den verfügbaren Stimmen auflisten, lautet die gender der en-US_MichaelExpressive-Stimme jetzt male. Zuvor wurde das Geschlecht der Stimme fälschlicherweise als female beschrieben. Weitere Informationen finden Sie unter Informationen zu Stimmen auflisten.

Behobene Sicherheitslücken

Die folgenden Sicherheitslücken wurden behoben:

30. November 2022 (Version 4.6.0)

Version 4.6.0 ist jetzt verfügbar

Text to Speech für IBM Cloud Pak for Data Version 4.6.0 ist jetzt verfügbar. Diese Version unterstützt die Versionen IBM Cloud Pak for Data, 4.6.x und Red Hat OpenShift, 4.8 und 4.10. Weitere Informationen finden Sie unter Watson Sprachdienste auf IBM Cloud Pak for Data.

Amazon Web Services (AWS) wird jetzt unterstützt

Watson Sprachservices für IBM Cloud Pak for Data werden jetzt unter Amazon Web Services™ (AWS™) unterstützt. Die Services unterstützen Amazon Elastic Block Store, das Sie angeben, indem Sie die Eigenschaft blockStorageClass der angepassten Ressource für Speech-Services auf gp2-csi oder gp3-csi setzen.

Neue Speicherklassen werden jetzt unterstützt

Watson Speech-Services für IBM Cloud Pak for Data unterstützen jetzt zwei zusätzliche Speicherklassen:

  • IBM Cloud Block Storage (ibmc-block-gold)
  • NetApp Trident (ontap-nas)

Sie geben die Speicherklasse mit der Eigenschaft blockStorageClass der angepassten Ressource für Sprachservices an. Weitere Informationen zu allen unterstützten Speicherklassen finden Sie in den folgenden Abschnitten in Watson Speech-Services unter IBM Cloud Pak for Data:

  • Vorbereitende Schritte unter * Watson Speech-Services installieren*
  • Speicherklasse angeben in Angepasste Ressource für Watson Speech-Services verwenden
Bekanntes Problem: Einige Pods für Watson Speech-Services haben keine Annotationen, die für die Planung verwendet werden

Bekanntes Problem: Einigen Pods für Watson Speech-Services fehlt die Annotation cloudpakInstanceId. Wenn Sie den Zeitplanungsservice IBM Cloud Pak for Data verwenden, werden alle Watson Speech-Service-Pods ohne die Annotation cloudpakInstanceId

  • Vom Kubernetes-Standardscheduler und nicht vom Zeitplanungsservice geplant
  • Nicht in die Kontingenterzwingung einbezogen
Überwachung des PostgreSQL-Datenspeichers ist jetzt verfügbar

Sie können jetzt die Überwachung des PostgreSQL-Datenspeichers aktivieren, um Aktualisierungen zu seiner Nutzung und seinem Status durch die Watson Speech-Services zu erhalten. Die Ereignisse können von der Prometheus-Überwachungssoftware oder einer beliebigen Anwendung, die Sie für die Überwachung verwenden, verarbeitet werden. Durch Aktivieren der Überwachung für benutzerdefinierte Projekte zusätzlich zur Standardplattformüberwachung können Sie Ihre eigenen Projekte mit dem Überwachungsstack Red Hat® OpenShift® Container Platform überwachen. Diese Funktionalität umfasst die zusätzliche Eigenschaft spec.global.datastores.postgressql.enablePodMonitor in der angepassten Ressource für Speech-Services.

Weitere Informationen finden Sie unter * PostgreSQL-Datenspeicher für Watson Speech-Services überwachen* im Abschnitt Verwaltung unter Watson Speech-Services auf IBM Cloud Pak for Data.

Fehlerkorrektur: PostgreSQL-Datenspeicher ist nicht mehr installiert, wenn nur Laufzeitmikroservices aktiviert sind

Fehlerkorrektur: Der PostgreSQL-Datenspeicher ist nicht mehr installiert, wenn nur die Laufzeitmikroservices aktiviert sind. Der Datenspeicher ist jetzt nur dann installiert, wenn mindestens einer der Mikroservices sttAsync, sttCustomization oder ttsCustomization installiert ist. PostgreSQL wird nicht deinstalliert, wenn diese Mikroservices zu einem späteren Zeitpunkt inaktiviert werden.

Vor Version 4.6.0wurde PostgreSQL stets mit den Speech-Services installiert. Wenn Sie ein vorhandener Kunde sind, der nur die Laufzeitmikroservices der Speech-Services vor Version 4.6.0verwendet hat, bleibt PostgreSQL installiert, wird aber nicht verwendet. In diesem Fall bleibt die Installation von PostgreSQL bei Upgrades bestehen.

Der Datenspeicher MinIO wird immer installiert, da die Laufzeitmikroservices davon abhängig sind. Der RabbitMQ-Datenspeicher wird nur installiert, wenn der sttAsync-Mikroservice installiert ist.

Weitere Informationen finden Sie unter Datenspeichereigenschaften in Angepasste Ressource für Watson-Sprachservices verwenden in Watson-Sprachservices auf IBM Cloud Pak for Data.

Fehlerkorrektur: Die Erstellung einer Netzrichtlinie ist nicht mehr erforderlich, damit der Operator PostgreSQL seine Operanden überwacht.

Fehlerkorrektur: Für Version 4.6.0ist es nicht erforderlich, eine Netzrichtlinie zu erstellen, damit der Operator PostgreSQL seine Operanden überwachen kann, wie in der Serviceaktualisierung 10 November 2022(Versionen 4.0.x und 4.5.x) beschrieben. Ab Version 4.6.0behandelt der Service diese Situation automatisch.

Neuer Beta-Abfrageparameter rate_percentage zur Steuerung der globalen Sprachrate

Der Service bietet einen neuen Abfrageparameter rate_percentage, um die Sprechgeschwindigkeit für eine Sprachsyntheseanforderung zu ändern. Die Sprechgeschwindigkeit ist die Geschwindigkeit, mit der der Service den Text spricht, den er in Sprache synthetisiert. Eine höhere Rate führt dazu, dass der Text schneller gesprochen wird; eine niedrigere Rate bewirkt, dass der Text langsamer gesprochen wird. Der Parameter ändert die Sprachstandardrate für eine gesamte Anforderung. Weitere Informationen finden Sie unter Sprechgeschwindigkeit ändern.

Neuer Beta-Abfrageparameter pitch_percentage zur Steuerung der globalen Sprachdichte

Der Service bietet einen neuen Abfrageparameter pitch_percentage, um die Sprechdichte für eine Syntheseanforderung zu ändern. Die Sprechdichte stellt den Ton der Sprache dar, die der Service synthetisiert. Sie stellt dar, wie hoch oder niedrig der Ton der Stimme vom Hörer wahrgenommen wird. Eine höhere Tonhöhe führt zu einer Sprache, die in einem höheren Ton gesprochen wird und als höhere Stimme wahrgenommen wird; eine niedrigere Tonhöhe führt zu einer Sprache, die in einem niedrigeren Ton gesprochen wird und als niedrigere Stimme wahrgenommen wird. Der Parameter ändert die Standardtonhöhe pro Stimme für eine gesamte Anforderung. Weitere Informationen enthält der Abschnitt Tonhöhe ändern.

Fehlerkorrektur: Benutzerdefinierte Wortübersetzungen akzeptieren jetzt in allen Fällen Kommas

Fehlerkorrektur: Zu angepassten Modellen hinzugefügte Word-Übersetzungen akzeptieren jetzt in allen Fällen Kommas. Früher konnte ein Komma in einer Übersetzung gelegentlich dazu führen, dass die Übersetzung keine gültigen Audiodaten generiert, wenn sie für Sprachsynthesezwecke verwendet wird. Dieses Problem wurde in angepassten Modellen für amerikanisches Englisch identifiziert.

Fehlerkorrektur: Französische Datensynthese ist jetzt konsistent

Fehlerkorrektur: Die französische Synthese enthält nicht mehr den Artikel "le" vor Datumsangaben des Formulars "the ordinal of month." Zuvor wurde der Artikel nur für den ersten Tag des Monats für Französisch aufgenommen (z. B. "der erste September", "le premier septembre").

Fehlerkorrektur: Die japanische Synthese wurde verbessert, um lange Zeichenfolgen von Eingabetext zu verarbeiten

Fehlerkorrektur: Der Service erstellt jetzt korrekt synthetisch japanische Anforderungen, die lange Zeichenfolgen enthalten. Bisher konnte der Service sehr lange Zeichenfolgen japanischen Textes nicht richtig synthetisch erstellen.

Fehlerkorrektur: Regeln für die Dokumentation zur Benennung angepasster Modelle hinzufügen

Fehlerkorrektur: Die Dokumentation enthält jetzt detaillierte Regeln für die Benennung angepasster Modelle. Weitere Informationen finden Sie

Behobene Sicherheitslücken

Die folgenden Sicherheitslücken wurden behoben:

10. November 2022 (Versionen 4.0.x und 4.5.x)

Bekanntes Problem: Aktualisierte Netzrichtlinie für PostgreSQL-Operator erforderlich

Bekanntes Problem: Für Speech-Services der Version 4.0.x (ohne Version 4.0.0) und 4.5.xkann der Operator PostgreSQL die PostgreSQL-Operanden für die Speech-Services nicht überwachen, wenn der Operator PostgreSQL und die Speech-Services in verschiedenen Namensbereichen installiert sind. Der Operator wird daran gehindert, die Operanden durch die Netzrichtlinie zu überwachen, die für die Sprachservices vorhanden ist.

Dieses Problem verhindert nicht, dass der PostgreSQL-Cluster ordnungsgemäß funktioniert. Der Cluster bleibt aktiv und voll funktionsfähig. Der Operator kann die Operanden jedoch nicht aktualisieren, wenn Sie ein Upgrade auf neue Versionen der Speech-Services durchführen.

Die Lösung für das Problem besteht darin, eine zusätzliche Netzrichtlinie für den Operator PostgreSQL zu erstellen, wie in den folgenden Schritten gezeigt. Sie können die Schritte unabhängig davon ausführen, ob der Operator PostgreSQL in demselben Namensbereich wie die Speech-Services oder in einem anderen Namensbereich installiert ist.

  1. Melden Sie sich als Administrator des Red Hat® OpenShift®-Projekts an, in dem die Speech-Services installiert sind.

  2. Geben Sie den folgenden Befehl ein, um die Netzrichtlinie für die Speech-Services zu aktualisieren:

    cat << EOF | oc apply -f -
    apiVersion: networking.k8s.io/v1
    kind: NetworkPolicy
    metadata:
      labels:
        app.kubernetes.io/component: stt
        app.kubernetes.io/instance: {{ <custom-resource-name> }}
        app.kubernetes.io/name: speech-to-text
        release: {{ <custom-resource-name> }}
      name: <custom-resource-name>-postgres-network-policy
      namespace: {{ <cpd-instance-namespace> }}
    spec:
      ingress:
      - from:
        - namespaceSelector: {}
          podSelector:
            matchLabels:
              app.kubernetes.io/name: cloud-native-postgresql
    EOF
    

    wo

    • <custom-resource-name> ist der Name der angepassten Ressource für Speech-Services. Der empfohlene Name für Version 4.0.x ist speech-prod-cr; der empfohlene Name für Version 4.5.x ist speech-cr.
    • <cpd-instance-name> ist der Name des Projekts (Namespace), in dem die Sprachdienste installiert sind. Die Dokumentation verwendet die Umgebungsvariable ${PROJECT_CPD_INSTANCE}, um den Namensbereich zu identifizieren.
  3. Geben Sie den folgenden Befehl ein, um zu überprüfen, ob die aktualisierte Netzrichtlinie dem Bediener die Überwachung der Operanden ermöglicht und ob sich der PostgreSQL-Cluster in einwandfreiem Zustand befindet. Dabei sind <custom-resource-name> und <cpd-instance-name> die Werte, die Sie im vorherigen Schritt verwendet haben:

    oc -get cluster {{ <custom-resource-name> }}-postgres -n {{ <cpd-instance-namespace> }}
    

    Wenn der PostgreSQL ordnungsgemäß funktioniert, erzeugt der Befehl eine Ausgabe ähnlich der folgenden:

    NAME                 AGE   INSTANCES   READY   STATUS                     PRIMARY
    speech-cr-postgres   14d   3           3       Cluster in healthy state   speech-cr-postgres-1
    

Diese Schritte bewirken nicht, dass der Operator die Operanden auf die neuesten Versionen aktualisiert. Die Operanden werden jedoch wie erwartet aktualisiert, wenn Sie das nächste Upgrade für die Speech-Service-Software durchführen.

13. November 2022 (Version 4.5.3)

Version 4.5.3 ist jetzt verfügbar

Text to Speech für IBM Cloud Pak for Data Version 4.5.3 ist jetzt verfügbar. Diese Version unterstützt die Versionen IBM Cloud Pak for Data 4.5.x und Red Hat OpenShift 4.6, 4.8, und 4.10. Weitere Informationen finden Sie unter Watson Sprachdienste auf IBM Cloud Pak for Data.

Prüfereignisse sind für die Speech-Services verfügbar

Der Prüfprotokollierungsservice IBM Cloud Pak for Data generiert und leitet Prüfereignisse für die Services Speech to Text und Text to Speech weiter. Die Prüfereignisse stimmen mit denen überein, die für Activity Tracker mit dem öffentlichen Service verfügbar sind. Weitere Informationen finden Sie unter Prüfereignisse.

Sie können einzelne Speech-Service-Komponenten nicht deinstallieren

Die Dokumentation stellt jetzt fest, dass Sie einzelne Servicekomponenten (Mikroservices) nicht deinstallieren können, sobald sie installiert sind. Um eine der folgenden Komponenten zu entfernen, müssen Sie Watson vollständig deinstallieren und nur die benötigten Komponenten neu installieren: Speech to Text Runtime, Speech to Text asynchrones HTTP, Speech to Text Anpassung, Text to Speech Runtime und Text to Speech Anpassung. Weitere Informationen zur Installation der Sprachdienste finden Sie Watson auf IBM Cloud Pak for Data.

Neuer Beta-Parameter spell_out_mode für deutsche Stimmen

Um anzugeben, wie einzelne Zeichen einer Zeichenfolge geschrieben werden sollen, können Sie jetzt den Beta-Abfrageparameter spell_out_mode mit einer Syntheseanforderung für eine deutsche Stimme einschließen. Standardmäßig gibt der Service einzelne Zeichen mit derselben Geschwindigkeit aus, mit der er Text für eine Sprache synthetisch erstellt. Sie können den Parameter verwenden, um den Service anzuweisen, einzelne Zeichen langsamer in Gruppen von ein, zwei oder drei Zeichen auszuschreiben. Verwenden Sie den Parameter mit dem SSML-Element <say-as>, um zu steuern, wie die Zeichen einer Zeichenfolge synthetisch erstellt werden. Weitere Informationen finden Sie unter Schreibweise von Zeichenfolgen angeben.

Bekannte Einschränkung bei Verwendung des Ogg-Audioformats mit dem Safari-Browser

Standardmäßig gibt der Service Audiodaten im Ogg-Audioformat mit dem Opus-Codec (audio/ogg;codecs=opus) zurück. Das Ogg-Audioformat wird jedoch im Safari-Browser nicht unterstützt. Wenn Sie den Text to Speech-Service mit dem Safari-Browser verwenden, müssen Sie ein anderes Format angeben, in dem der Service die Audiodaten zurückgeben soll.

Fehlerbehebung beim Upgrade von Version 4.0.x auf Version 4.5.x

Wenn Sie ein Upgrade der Speech-Services von Version 4.0.x auf Version 4.5.xdurchführen, tritt möglicherweise ein Problem auf, bei dem die PostgreSQL-Pods im Status Terminating blockiert werden. Wenn dieses Problem während des Upgrades auftritt, führen Sie die folgenden Schritte aus, um das Problem zu beheben: Die Informationen und Schritte sind auch im Abschnitt Upgrade von Watson Speech-Services von Version 4.0 auf Version 4.5 im Abschnitt Upgrade durchführen unter Watson Speech-Services auf IBM Cloud Pak for Datadokumentiert.

  1. Verwenden Sie den folgenden Befehl, um Pods zu identifizieren, die im Status Terminating verbleiben:
oc get pods -n ${PROJECT_CPD_INSTANCE} -o wide | awk {'print $1'}
  1. Verwenden Sie den folgenden Befehl, um die Umgebungsvariable pods festzulegen, um die Liste der Pods einzuschließen, die im Status Terminating verbleiben:
pods=$(oc get pods -n ${PROJECT_CPD_INSTANCE} -o wide | grep Terminating | awk {'print $1'})
  1. Verwenden Sie den folgenden Befehl, um die blockierten Pods zu löschen, damit der Upgradeprozess fortgesetzt werden kann:
oc delete pod $pods -n ${PROJECT_CPD_INSTANCE} --force=true --grace-period=0
Aktualisierte Dokumentation für das SSML-Element <prosody>

Die Dokumentation für das SSML-Element <prosody> und seine Parameter pitch und rate wurde verbessert und transparenter gestaltet. Außerdem enthält sie jetzt eine Beschreibung der Unterschiede zwischen dem Service und der neuesten Version der SSML-Spezifikation. Weitere Informationen finden Sie unter Element <prosody>.

Behobene Sicherheitslücken

Die folgenden Sicherheitslücken wurden behoben:

3. August 2022 (Version 4.5.1)

Version 4.5.1 ist jetzt verfügbar
Text to Speech für IBM Cloud Pak for Data Version 4.5.1 ist jetzt verfügbar. Diese Version unterstützt die Versionen IBM Cloud Pak for Data 4.5.x und Red Hat OpenShift 4.6, 4.8, und 4.10. Weitere Informationen finden Sie unter Watson Sprachdienste auf IBM Cloud Pak for Data.
Unterstützung für FIPS-aktivierte Cluster
Sowohl Text to Speech für IBM Cloud Pak for Data als auch Speech to Text für IBM Cloud Pak for Data unterstützen jetzt die Ausführung auf Clustern mit aktiviertem Federal Information Processing Standard (FIPS). Weitere Informationen finden Sie unter Services, die FIPS unterstützen.
Fehlerkorrektur: Berechnungen des ephemeren Speichers korrigiert, um gelegentliche Podbereinigungen zu verhindern
Fehlerkorrektur: Ein Fehler wurde behoben und die Berechnung von Grenzwerten für ephemeren Speicher ist jetzt präziser für Text to Speech für IBM Cloud Pak for Data und Speech to Text für IBM Cloud Pak for Data-Laufzeiten. Diese Änderungen verhindern gelegentliche Podbereinigungen, wenn die Laufzeiten der Services stark ausgelastet sind.
Der Service unterstützt keine mehrsprachige Sprachsynthese
Der Service unterstützt derzeit keine mehrsprachige Sprachsynthese. Sie können die Anpassung jedoch verwenden, um die Aussprache von Wörtern aus anderen Sprachen näherungsweise zu berechnen. Weitere Informationen finden Sie unter Mehrsprachige Sprachsynthese.
Behobene Sicherheitslücken
Die folgenden Sicherheitslücken wurden behoben:

29. Juni 2022 (Versionen 4.5.0)

Version 4.5.0 ist jetzt verfügbar
Text to Speech für IBM Cloud Pak for Data Version 4.5.0 ist jetzt verfügbar. Diese Version unterstützt die Versionen IBM Cloud Pak for Data 4.5.x und Red Hat OpenShift 4.6, 4.8, und 4.10. Weitere Informationen finden Sie unter Watson Sprachdienste auf IBM Cloud Pak for Data.
Dokumentation zu Unified Speech-Services für IBM Cloud Pak for Data
Die Installations-und Verwaltungsdokumentation für Speech to Text und Text to Speech ist jetzt in der Dokumentation IBM Cloud Pak for Data kombiniert. Weitere Informationen zur Installation und Verwaltung der Speech-Services finden Sie unter Watson Speech-Services unter IBM Cloud Pak for Data.
Änderungen an angepassten Ressourcen für Speech-Services
Die angepasste Ressource wird jetzt bei der Erstinstallation der Speech-Services erstellt. Der Prozess wird in der Installationsdokumentation zu IBM Cloud Pak for Data beschrieben. Der Inhalt der angepassten Ressource hat sich geändert:
  • Der empfohlene Name der angepassten Ressource wurde von speech-prod-cr in speech-cr geändert.
  • Alle Verweise auf Speicherklassen wurden von Varianten von storageClass in blockStorageClass geändert.
  • Der Name der Blockspeicherklasse Portworx wurde von portworx-shared-gp3 in portworx-db-gp3-sc geändert.
  • Die Eigenschaft createSecret wurde für die Datenspeicher MinIO und PostgreSQl entfernt. Die Eigenschaft wird nur intern verwendet. Die Speech-Services verwenden immer ein Objekt für geheime Schlüssel, wenn Sie eines erstellen, und sie erstellen das Objekt immer automatisch, wenn kein Objekt angegeben ist.
Vom Benutzer bereitgestelltes Objekt für geheime Schlüssel wird jetzt für RabbitMQ-Datenspeicher unterstützt
Sie können jetzt Sicherheitsberechtigungsnachweise für den RabbitMQ-Datenspeicher wie für die Datenspeicher MinIO und PostgreSQL bereitstellen. Der dokumentierte Prozess ist für alle drei Datenspeicher ähnlich.
Fehlerkorrektur: Mehrere aufeinanderfolgende SSML-<phoneme>-Tags werden jetzt ordnungsgemäß geparst
Fehlerkorrektur: Der Service erstellt jetzt ordnungsgemäß synthetisch Text, der aufeinanderfolgende <phoneme>-Tags enthält. Wenn der Text zwei oder mehr aufeinanderfolgende <phoneme>-Tags enthielt, hat der Service bisher nur den ersten Tag synthetisch erstellt und die anderen Tags ignoriert.
Behobene Sicherheitslücken
Für Version 4.5.0wurden keine Sicherheitslücken behoben.

25. Mai 2022 (Version 4.0.9)

Version 4.0.9 ist jetzt verfügbar
Text to Speech for IBM Cloud Pak for Data Version 4.0.9 ist jetzt verfügbar. Diese Version unterstützt IBM Cloud Pak for Data Version 4.x und Red Hat OpenShift Version 4.6 und 4.8. Weitere Informationen zur Installation und Verwaltung des Service finden Sie unter Watson Text to Speech.
Neue Unterstützung für Audioformat audio/alaw
Die Liste der unterstützten Audioformate enthält jetzt audio/alaw;rate={rate}. Wie audio/basic und audio/mulaw stellt dieses Format Single-Channel-Audiodaten bereit, die mit 8-Bit-U-Law-Daten (oder Mu-Law-Daten) codiert werden, die mit 8 kHz abgetastet werden. Weitere Informationen finden Sie unter Audioformate verwenden.
Die Speech-Services unterstützen das Sicherungs- und Wiederherstellungsdienstprogramm von OADP nicht.
Watson Sprachservices unterstützen das Sicherungs- und Wiederherstellungsdienstprogramm von IBM Cloud Pak for Data OpenShift APIs for Data Protection (OADP) nicht. Wenn die Speech-Services auf einem Cluster installiert sind, können Sie möglicherweise nicht das IBM Cloud Pak for Data OADP-Sicherungs-und Wiederherstellungsdienstprogramm verwenden, um andere Services zu sichern, die auf diesem Cluster installiert sind. Diese Einschränkung gilt für Version 4.0.0 und höhere Versionen der Speech-Services.
Behobene Sicherheitslücken
Die folgenden Sicherheitslücken wurden behoben:

1. Mai 2022 (Version 1.2.x)

Wichtig: Ende des Servicezeitraums für Text to Speech Version 1.2.x unter IBM Cloud Pak for Data Version 3.5
Wichtig: Text to Speech Version 1.2.x unter IBM Cloud Pak for Data Version 3.5 ist ab dem 1. Mai 2022 außer Betrieb. Die Text to Speech Version 1.2.x wird nicht mehr unterstützt, ist nicht mehr verfügbar oder ist nicht mehr dokumentiert. Weitere Informationen zum Ende des Servicezeitraums für Text to Speech, das Teil des Watson API-Kits ist, finden Sie unter Ende der Softwareunterstützung: IBM Watson API Kit for IBM Cloud Pak for Data 1.2.x.

27. April 2022 (Version 4.0.8)

Version 4.0.8 ist jetzt verfügbar

Text to Speech for IBM Cloud Pak for Data Version 4.0.8 ist jetzt verfügbar. Diese Version unterstützt IBM Cloud Pak for Data Version 4.x und Red Hat OpenShift Version 4.6 und 4.8. Weitere Informationen zur Installation und Verwaltung des Service finden Sie unter Watson Text to Speech.

Neue in der IBM Cloud Pak for Data-Dokumentation verwendete Umgebungsvariablen

Die meisten Befehle in der Dokumentation zu Text to Speech for IBM Cloud Pak for Data wurden aktualisiert und verwenden nun eine allgemeine Gruppe von Umgebungsvariablen. Die Dokumentation enthält ein Script zum automatischen Exportieren der Umgebungsvariablen, bevor Sie Installations-, Upgrade- und Verwaltungsbefehle ausführen. Nachdem Sie das Script als Quelle angegeben haben, können Sie die meisten Befehle aus der Dokumentation kopieren und ohne Änderungen ausführen.

Das Script definiert die folgenden Umgebungsvariablen:

  • ${PROJECT_CPD_INSTANCE} gibt das Projekt an, in dem Sie IBM Cloud Pak for Data und die Speech-Services installieren wollen.
  • ${PROJECT_CPD_OPS} gibt das Projekt für den IBM Cloud Pak for Data-Plattformoperator an.
  • ${PROJECT_CPFS_OPS} gibt das Projekt für die IBM Cloud Pak for Data-Basisservices an.

Weitere Informationen zur Verwendung der Umgebungsvariablen finden Sie unter Best Practice: Installationsvariablen einrichten.

Die Eigenschaft ttsVoiceMarginalCPU ist nicht mehr dokumentiert

Die Eigenschaft ttsVoiceMarginalCPU wurde aus der Dokumentation für die angepasste Ressource für Speech-Services entfernt. Die Eigenschaft verwaltet den Kompromiss zwischen Nebenläufigkeit und Sprachsynthesegeschwindigkeit. Der Standardwert 400 stellt für die meisten Kunden ein angemessenes Gleichgewicht sicher und verwaltet die Echtzeitsynthese.

Behobene Sicherheitslücken

Die folgenden Sicherheitslücken wurden behoben:

30. März 2022 (Version 4.0.7)

Version 4.0.7 ist jetzt verfügbar

Text to Speech für IBM Cloud Pak for Data Version 4.0.7 ist jetzt verfügbar. Diese Version unterstützt IBM Cloud Pak for Data Version 4.x und Red Hat OpenShift Version 4.6 und 4.8. Weitere Informationen zur Installation und Verwaltung des Service finden Sie unter Watson Text to Speech.

Angepasste Ressourceneigenschaft zum Angeben einer Standardstimme

Die Standardstimme für Sprachsynthese- und Aussprachanforderungen ist en-US_MichaelV3Voice. Wenn Sie en-US_MichaelV3Voice nicht installieren, müssen Sie entweder

  • Mit dem Parameter voice die Stimme übergeben, die für jede Anforderung verwendet werden soll.
  • Mithilfe der Eigenschaft defaultTTSVoice in der angepassten Ressource für Speech-Services eine neue Standardstimme für Ihre Installation von Text to Speech for IBM Cloud Pak for Data angeben. Weitere Informationen finden Sie unter Watson Text to Speech und Standardsprache verwenden.
Änderung der Wordtaktrückgabe für WebSocket-Schnittstelle

Das Antwortobjekt, das der Service sendet, wenn Sie Worttaktinformationen über die WebSocket-Schnittstelle anfordern, wurde geändert. Der Service sendet jetzt Worttaktergebnisse in einem einzelnen Array, das eine Zeichenfolge gefolgt von zwei Gleitkommazahlen enthält:

{
  "words": [
    ["Hello", 0.0, 0.259],
    ["world", 0.259, 0.532]
  ]
}

Zuvor wurden vom Service Taktergebnisse als Array mit einer Zeichenfolge gesendet, auf die ein Array mit zwei Gleitkommazahlen folgt:

{
  "words": [
    ["Hello", [0.0629826778195474, 0.2590192737303819]],
    ["world", [0.2598829173456253, 0.5322130804452672]]
  ]
}

Außerdem wird die Genauigkeit für Worttaktinformationen und -markierungen jetzt auf drei Dezimalstellen reduziert. Weitere Informationen zu den neuen Antworten finden Sie unter Wortzeitdauer generieren.

Behobene Sicherheitslücken

Die folgenden Sicherheitslücken wurden behoben:

23. Februar 2022 (Version 4.0.6)

Version 4.0.6 ist jetzt verfügbar

Text to Speech for IBM Cloud Pak for Data Version 4.0.6 ist jetzt verfügbar. Diese Version unterstützt IBM Cloud Pak for Data Version 4.x und Red Hat OpenShift Version 4.6 und 4.8. Weitere Informationen zur Installation und Verwaltung des Service finden Sie unter Watson Text to Speech.

Alle neuronalen Stimmen sind ab IBM Cloud Pak for Data veraltet.

Die neuronalen Stimmen, die mit Text to Speech for IBM Cloud Pak for Data verfügbar waren, sind jetzt veraltet. Die neuronalen Stimmen sind weiterhin für Benutzer von Text to Speech for IBM Cloud verfügbar. Nur die erweiterten neuronalen Stimmen sind weiterhin für Benutzer von Text to Speech for IBM Cloud Pak for Data verfügbar.

Alle Stimmen für die folgenden Sprachen gelten für IBM Cloud Pak for Data jetzt als veraltet:

  • Arabisch
  • Chinesisch (Mandarin)
  • Tschechisch
  • Niederländisch (Belgien)
  • Niederländisch (Niederlande)
  • Englisch (Australien)
  • Koreanisch
  • Schwedisch

Vorhandene Benutzer dieser Stimmen können sie jetzt zwar weiterhin verwenden, die Stimmen werden jedoch in einem zukünftigen Release vollständig entfernt. Diese Stimmen können nicht mehr von neuen Benutzern installiert werden und wurden in der Installationsdokumentation für IBM Cloud Pak for Data entfernt. Die Eigenschaft voiceType wurde aus der angepassten Ressource für Speech-Services entfernt.

Weitere Informationen finden Sie

Aktualisierungen für Scripts für Import und Export

Die Scripts import_export.sh und transfer_ownership.sh wurden aktualisiert. Diese Scripts werden zum Importieren und Exportieren von Daten zwischen Clustern, zum Sichern und Wiederherstellen von Daten und zum Migrieren von Daten von Version 3.5 auf Version 4.0.x verwendet. Die Scripts wurden wie folgt geändert und verbessert:

  • Beim Script transfer_ownership.sh muss die Option -c in der Befehlszeile jetzt vor dem Argument <custom_resource_name> angegeben werden.
  • Das Script transfer_ownership.sh erfordert jetzt die Option -v <version> und ein Argument für die Angabe der Version, auf die das Eigentumsrecht an Ressourcen übertragen wird. Geben Sie 35 für Version 3.5 oder 40 für Version 4.0.x an.
  • Beim Script transfer_ownership.sh muss die Option -p in der Befehlszeile jetzt vor dem Argument <postgres_auth_secret_name> angegeben werden.
  • Das Argument <postgres_auth_secret_name> gibt den geheimen Kubernetes-Schlüssel an, der für die Authentifizierung bei dem PostgreSQL-Datenspeicher verwendet wird, an den Sie das Eigentumsrecht übertragen. Sie können den geheimen Authentifizierungsschlüssel auslassen, wenn er dem Standardwert entspricht (<custom-resource-name>-postgres-auth-secret für Version 4.0.x, user-provided-postgressql für Version 3.5). Sie müssen den geheimen Schlüssel angeben, wenn er sich vom Standardwert unterscheidet.
  • Beide Scripts enthalten jetzt die Option -h (--help), mit der Informationen zum Script und zu dessen Verwendung angezeigt werden können.

Weitere Informationen finden Sie

Aktualisierte Empfehlung für OpenShift Container Storage

Ab Version 4.0.6 der Speech-Services ist die empfohlene Speicherklasse für OpenShift Container Storage die Klasse ocs-storagecluster-ceph-rbd.

  • Wenn Sie Version 4.0.6 der Speech-Services oder ein Upgrade auf Version 4.0.6 der Speech-Services von IBM Cloud Pak for Data Version 3.5 durchführen, geben Sie bei der Installation bzw. bei dem Upgrade die Speicherklasse ocs-storagecluster-ceph-rbd an.
  • Wenn Sie ein Upgrade auf Version 4.0.6 der Speech-Services von einer vorherigen Aktualisierung von Cloud Pak for Data Version 4.0 durchführen, verwenden Sie weiterhin ocs-storagecluster-cephfs. Sie können den Speicher, der in einer vorhandenen Implementierung verwendet wird, nicht ändern.

Der Wert wird mit der Eigenschaft storageClass in der angepassten Speech-Serviceressource angegeben.

################
# Storage class
################
  storageClass: "ocs-storagecluster-ceph-rbd"

Die Speech-Services können mit beiden Versionen von OpenShift Container Storage ausgeführt werden. Die neu empfohlene Version hat restriktivere Zugriffsberechtigungen. Weitere Informationen finden Sie

31. Januar 2022 (Version 4.0.5)

Version 4.0.5 wurde aktualisiert

Text to Speech for IBM Cloud Pak for Data Version 4.0.5 wurde aktualisiert, um Installationsprobleme zu beheben. Die Fallpaketversion lautet jetzt 4.0.6. Verwenden Sie dieses Paket anstelle des Pakets der Version 4.0.5. Weitere Informationen zur Installation und Verwaltung des Service finden Sie unter Watson Text to Speech.

Wichtig: Zusätzliche Schritte für die gespiegelte Installation sind nicht mehr erforderlich

Wichtig: Die Releaseinformationen vom 26. Januar 2022 enthalten wichtige Hinweise für die folgenden Schritte:

  • Zusätzlicher Schritt zur Ausführung einer gespiegelten Installation des Minio-Datenspeichers
  • Zusätzliche Schritte für eine gespiegelte Installation neuer Modelle der nächsten Generation

Diese zusätzlichen Schritte sind nicht mehr erforderlich. Das Fallpaket wurde aktualisiert, um die Installationsprobleme zu beheben.

26. Januar 2022 (Version 4.0.5)

Version 4.0.5 ist jetzt verfügbar

Text to Speech for IBM Cloud Pak for Data Version 4.0,5 ist jetzt verfügbar. Diese Version unterstützt IBM Cloud Pak for Data Version 4.x und Red Hat OpenShift Version 4.6 und 4.8. Weitere Informationen zur Installation und Verwaltung des Service finden Sie unter Watson Text to Speech.

Wichtig: Zusätzliche Schritte für die Ausführung einer gespiegelten Installation des Minio-Datenspeichers

Wichtig: Diese Schritte sind nicht mehr erforderlich, wenn Sie Version 4.0.6 des Fallpakets installieren. Für weitere Informationen siehe 31. Januar 2022(Version 4.0.5).

Wenn Sie eine gespiegelte Installation durchführen (z. B. in einer durch Air-Gap geschützten Umgebung), müssen Sie vor dem Ausführen eines der folgenden Schritte einen zusätzlichen Schritt ausführen:

Dieser Schritt ist obligatorisch, um die erforderlichen Images für den Minio-Datenspeicher zu kopieren:

echo 'cp.icr.io,cp/opencontent-minio-client,1.1.4,sha256:7b4cf5e47a0455cfa7ca9ab246b80916e4dccbc1483b3e0f276fb7b0ab3e5c60,IMAGE,linux,x86_64,"",0,CASE,"",""' \
>> $CASE_PATH/ibm-watson-speech-4.0.5-images.csv

Wenn Sie diesen Schritt nicht ausführen, führt dies zu Installationsfehlern bei Text to Speech und Speech to Text.

Der Lizenzserver wird jetzt automatisch installiert

Vom Operator der Speech-Services wird bei der Installation der Speech-Services jetzt automatisch der erforderliche Lizenzserver installiert. Sie müssen den Lizenzserver nicht mehr über die Basisservices von IBM Cloud Pak for Data installieren und keinen zusätzlichen YAML-Inhalt mehr verwenden, um eine OperandRequest-Instanz mit den erforderlichen Bindungen zu erstellen.

Für PostgreSQL EnterpriseDB-Server erforderliche Schritte entfallen

Die Vorgängerversion der Dokumentation enthielt für die Speech-Services spezifische Schritte für den PostgreSQL EnterpriseDB-Server. Diese Schritte wurden in den Abschnitten Upgrade für Watson Text to Speech (Version 4.0) durchführen und Watson Text to Speech deinstallierendokumentiert. Diese zusätzlichen Schritte sind nicht mehr erforderlich und wurden aus der Dokumentation entfernt.

RabbitMQ-Datenspeicher wird jetzt nur von der Komponente sttAysnc verwendet

Der RabbitMQ-Datenspeicher wurde zuvor von Komponenten beider Speech-Services Speech to Text und Text to Speech verwendet. Jetzt erfolgt ein Einsatz nur noch für die Steuerung nicht persistenter Nachrichtenwarteschlangen für die asynchrone HTTP-Komponente von Speech to Text (sttAsync). Der Datenspeicher wird nur verwendet, wenn die Komponente sttAsync installiert und aktiviert ist.

Neue neuronale Stimmen für Niederländisch (Belgien) und Tschechisch

Zwei neue neuronale Stimmen sind jetzt verfügbar:

  • Niederländisch (Belgien): Eine neue Männerstimme namens nl-BE_BramVoice für belgisches Niederländisch (Flämisch).
  • Tschechisch: Eine neue Sprache - Tschechisch - mit einer neuen Frauenstimme namens cs-CZ_AlenaVoice.

Sie können die neuen Stimmen zusammen mit allen neuronalen Stimmen installieren, indem Sie für die Eigenschaft voiceType der angepassten Ressource den Wert neuralVoices festlegen.

  • Weitere Informationen zur Verwendung der angepassten Ressource zum Installieren von Stimmen finden Sie unter Watson Text to Speech.
  • Weitere Informationen zu allen verfügbaren Sprachen und Stimmen finden Sie unter Sprachen und Stimmen.
Fehlerkorrektur: SSML-Dokumentation aktualisieren

Defekt behoben: Die SSML-Dokumentation wurde aktualisiert, um die folgenden Fehler zu korrigieren:

  • Die Beispiele für das Element <break> sind jetzt korrekt. Das Element ist monadisch, wie in den Beispielen gezeigt. Die vorherigen Beispiele enthielten Tag-Paare mit eingebettetem Text. Der eingebettete Text wurde vom Service nicht gesprochen. Weitere Informationen finden Sie unter Element <break>.
  • Der Service unterstützt SSML (Speech Synthesis Markup Language) Version 1.1. Alle Referenzen und Beispiele verwenden jetzt die richtige Version. In der Dokumentation wurde zuvor auf Version 1.0 verwiesen.
Behobene Sicherheitslücken

Die folgenden Sicherheitslücken im Zusammenhang mit Apache Log4j wurden behoben:

20. Dezember 2021 (Version 4.0.4)

Version 4.0.4 ist jetzt verfügbar

Text to Speech for IBM Cloud Pak for Data Version 4.0.4 ist jetzt verfügbar. Diese Version unterstützt IBM Cloud Pak for Data Version 4.x und Red Hat OpenShift Version 4.6 und 4.8. Weitere Informationen zur Installation und Verwaltung des Service finden Sie unter Watson Text to Speech.

Wichtig: Änderungen an Eigenschaften zum Inaktivieren der Speicherung und Protokollierung von Benutzerdaten

Wichtig: Die Namen der Eigenschaften der angepassten Ressource für Speech-Services, die angeben, ob Benutzerdaten gespeichert und protokolliert werden, wurden geändert. Die angepasste Ressource enthielt in früheren Versionen die folgenden Eigenschaften:

#################
# Anonymize logs
#################
  sttRuntime:
    anonymizeLogs: "false"  # If true, disables storage and logging of user data
  sttAMPatcher:
    anonymizeLogs: "false"  # If true, disables storage and logging of user data
  ttsRuntime:
    anonymizeLogs: "false"  # If true, disables storage and logging of user data

Diese Eigenschaften werden jetzt wie folgt bezeichnet:

###################################
# Storage and logging of user data
###################################
  sttRuntime:
    skipAudioAndResultLogging: "false"  # If true, disables storage and logging of user data
  sttAMPatcher:
    skipAudioAndResultLogging: "false"  # If true, disables storage and logging of user data
  ttsRuntime:
    skipAudioAndResultLogging: "false"  # If true, disables storage and logging of user data

Wenn Sie diese Eigenschaften in Ihrer angepassten Ressource bereits festgelegt haben, um den Standardwert von false in true zu ändern, müssen Sie Ihre angepasste Ressource bearbeiten. Sie müssen die Namen der Eigenschaften manuell in die neuen Werte ändern und die aktualisierte angepasste Ressource speichern. Weitere Informationen finden Sie unter Watson installieren Text to Speech.

Wichtig: Änderungen an Eigenschaften des PostgreSQL-Objekts für geheime Schlüssel

Wichtig: Wenn Sie die Speech-Services installieren, wird standardmäßig ein Objekt erstellt, das ein nach dem Zufallsprinzip generiertes Kennwort für den PostgreSQL-Datenspeicher enthält. Sie können das Kennwort auch manuell angeben. In diesem Fall ist zu beachten, dass sich die Eigenschaften der YAML-Datei für das Objekt für geheime Schlüssel geändert haben. Weitere Informationen finden Sie im Abschnitt zur Verwaltung Ihrer Datenspeicher unter Watson Text to Speech.

Wichtig: PostgreSQL-Pods mit dem EnterpriseDB-Operator von Version 1.10 werden nicht gestartet

Wichtig: Bei Text to Speech for IBM Cloud Pak for Data Version 4.0.3 können PostgreSQL-Pods, die auf dem EnterpriseDB-Operator von Version 1.10 basieren, möglicherweise nicht gestartet werden. Dies verhindert den Start der Speech-Services. Für dieses Problem gibt es eine Ausweichlösung. Wenn Ihre Sprachdienste nicht starten, finden Sie unter PostgreSQL pods do not start with EnterpriseDB version 1.10 operator Informationen zur Diagnose und Behebung des Problems.

Dieses Problem wurde in Text to Speech for IBM Cloud Pak for Data Version 4.0.4 behoben.

Neue Unterstützung für die IBM Spectrum Scale Container Native-Speicherklasse

Ab Version 4.0.3 unterstützen die Speech-Services die IBM Spectrum® Scale Container Native-Speicherklasse. Geben Sie für die Verwendung von IBM Spectrum Scale "ibm-spectrum-scale-sc" für die Eigenschaft storageClass der angepassten Ressource für Speech-Services an. Weitere Informationen finden Sie unter Watson installieren Text to Speech.

Interaktion von Speech-Services mit MinIO-Datenspeicher bei der Installation

Die Laufzeitkomponenten sttRuntime und ttsRuntime der Speech-Services können erst gestartet werden, wenn die Modelle und Stimmen für die Services vollständig in den MinIO-Datenspeicher hochgeladen wurden. Bei der Installation werden die Services möglicherweise aufgrund eines Fehlers beendet und automatisch einmalig oder mehrmals erneut gestartet, bis der Upload der Modelle und Stimmen abgeschlossen ist. Anschließend werden die Services ordnungsgemäß gestartet. Es ist keine Benutzeraktion erforderlich.

Defekt behoben: Verbesserung der Upgrade-Dokumentation

Fehlerkorrektur: Die Dokumentation zum Upgrade der Speech-Services auf neue Versionen von IBM Cloud Pak for Data Version 4.0.x enthielt falsche Verweise in einigen Befehlen. Diese Referenzen sind jetzt korrekt:

  • Die Zeichenfolgen watsonSpeechToTextStatus und watsonTextToSpeechStatus wurden in beiden Fällen in speechStatus geändert.
  • Die Zeichenfolgen status.watsonSpeechToTextVersion und status.watsonTextToSpeechVersion wurden in beiden Fällen in .spec.version geändert.

Weitere Informationen finden Sie unter Upgrade für Watson Text to Speech.

Fehlerkorrektur: SSML und Sprachsynthese verbessern

Behebung von Fehlern: Die folgenden Fehler für die Speech Synthesis Markup Language (SSML) und die Sprachsynthese wurden mit dieser Version behoben:

  • Das Attribut pitch des Elements <prosody> wird jetzt auf den gesamten angegebenen Text angewendet. Zuvor wurde die Änderung der Tonhöhe teilweise nicht auf das erste Wort des betroffenen Texts angewendet. Außerdem enthält die Dokumentation jetzt zusätzliche Anleitungen zur Angabe eines Werts für pitch. Weitere Informationen finden Sie unter Attribut pitch.
  • Die Sprachsynthese für japanische Texte liefert nun Audioausgabe mit einem langsameren Sprechtempo. Bisher war das Tempo der synthetisierten Aussprache zu hoch. Wenn Sie feststellen, dass das Sprechtempo in synthetisierten japanischen Texten für Ihre Anwendung noch zu hoch ist, können Sie das Tempo mit dem Attribut rate des SSML-Elements <prosody> verändern. Weitere Informationen finden Sie unter Attribut rate.
  • Von neuronalen Stimmen wird das Escapezeichen für Hochkommas (&apos;) jetzt wie erforderlich analysiert. Bisher wurde das Zeichen von einigen neuronalen Stimmen nicht richtig interpretiert.
Sicherheitslücke behoben

Die folgende Sicherheitslücke im Zusammenhang mit Apache Log4j wurde geschlossen:

20. Dezember 2021 (Version 1.2.x)

Wichtig: Sie können Text to Speech Version 1.2.x nicht mehr in IBM Cloud Pak for Data Version 3.5 installieren.

Wichtig: Sie können keine Neuinstallation von Text to Speech Version 1.2.x in IBM Cloud Pak for Data Version 3.5 mehr ausführen. Sie können nur Text to Speech Version 4.0.x in IBM Cloud Pak for Data Version 4.x installieren. Weitere Informationen finden Sie unter Watson installieren Text to Speech.

Die Speech-Services für IBM Cloud Pak for Data Version 3.5 erreichen das Ende des Unterstützungszeitraums am 30. April 2022. Es wird empfohlen, so bald wie möglich ein Upgrade auf das neueste 4.0.x-Release der Services durchzuführen. Weitere Informationen finden Sie unter Upgrade für Watson Text to Speech.

30. November 2021 (Version 4.0.3)

Version 4.0.3 ist jetzt verfügbar

Text to Speech for IBM Cloud Pak for Data Version 4.0.3 ist jetzt verfügbar. Diese Version unterstützt IBM Cloud Pak for Data Version 4.x und Red Hat OpenShift Version 4.6 und 4.8. Weitere Informationen zur Installation und Verwaltung des Service finden Sie unter Watson Text to Speech.

DER Lizenzserver ist jetzt eine obligatorische Voraussetzung

Sie müssen jetzt den Lizenzserver über die Basisservices von IBM Cloud Pak for Data installieren. Sie müssen den Lizenzserver mithilfe des bereitgestellten YAML-Inhalts installieren, um eine OperandRequest-Instanz mit den erforderlichen Bindungen zu erstellen. Außerdem müssen Sie den Lizenzservice in demselben Namensbereich wie den Service (Operand) installieren, in dem auch IBM Cloud Pak for Data installiert ist. Weitere Informationen finden Sie unter Watson installieren Text to Speech.

Neue Unterstützung für Inplace-Upgrades

Der Service unterstützt jetzt ein operatorbasiertes Inplace-Upgrade von Version 4.0.0 auf Version 4.0.3. Für die Umstellung von IBM Cloud Pak for Data Version 3.5 auf Version 4.0.3 sind weiterhin Migrationsdienstprogramme erforderlich. Weitere Informationen finden Sie unter Upgrade für Watson Text to Speech.

Änderungen bei der Installation von EDB PostgreSQL-Operator und -Lizenz

Installation, Upgrade und Deinstallation für den Enterprise DB PostgreSQL-Operator und die entsprechende Lizenz wurden geändert:

  • Anweisungen zur Installation des EDB PostgreSQL-Operators und der Lizenz sind jetzt in den Basisservices von IBM Cloud Pak for Data enthalten. Die Anweisungen zur Installation der Speech-Services wurden entsprechend aktualisiert. Weitere Informationen finden Sie unter Watson installieren Text to Speech.
  • Anweisungen für ein Upgrade von Text to Speech Version 4.0.0 auf 4.0.3 umfassen Anweisungen zur Deinstallation des vorherigen EDB PostgreSQL-Operators und der vorherigen Lizenz und zur erneuten Installation mit den Basisservices von IBM Cloud Pak for Data. Weitere Informationen finden Sie unter Upgrade für Watson Text to Speech.
  • Die Anweisungen für die Deinstallation der Speech-Services enthalten jetzt Schritte zum Entfernen des EDB PostgreSQL-Operators und der entsprechenden Lizenz, die zuvor mit Text to Speech installiert wurden. Weitere Informationen finden Sie unter Watson Text to Speech.
Neue Anleitung für ein Scale-up Ihrer Installation

Der Service bietet jetzt aktualisierte Anleitungen für ein Scale-up Ihrer Installation. Die Informationen umfassen die Angabe der Anzahl der Pods und die maximale Anzahl gleichzeitiger Sitzungen für (erweiterte) neuronale Stimmen. Weitere Informationen finden Sie unter Watson verwalten Text to Speech.

Befehlszeilenaktualisierungen für Import- und Exportdienstprogramme

Die Befehle, die mit den Import- und Exportdienstprogrammen für die Speech-Services verwendet werden, enthalten neue Optionen und Argumente. Die Import- und Exportdienstprogramme sind auch die Grundlage für die Sicherung und Wiederherstellung der Services und für die Migration von IBM Cloud Pak for Data Version 3.5 auf Version 4.0.3. Weitere Informationen zur Verwendung der Dienstprogramme finden Sie in den folgenden Abschnitten:

Neue Eigenschaft zur Verwaltung des gemeinsamen Zugriffs und der Sprachsynthese

Die neue Eigenschaft global.ttsVoiceMarginalCPU ermöglicht es, ein ausgewogenes Verhältnis zwischen Nebenläufigkeit und Geschwindigkeit bei der Sprachsynthese zu erzielen. Der Standardwert 400 bietet für die meisten Kunden ein ausgewogenes Verhältnis und ist für die Echtzeitsynthese geeignet. Wenden Sie sich an den IBM Support, um Informationen zum Ändern dieses Werts für Ihre Anforderungen zu erhalten.

Neue Unterstützung für neuronale Stimmen

Alle neuronalen Stimmen, die derzeit für Text to Speech for IBM Cloud verfügbar sind, sind jetzt auch für eine Installation unter Text to Speech for IBM Cloud Pak for Data verfügbar. Die folgenden Sprachen und Stimmen sind jetzt verfügbar:

  • Arabisch: ar-MS_OmarVoice
  • Chinesisch (Mandarin): zh-CN_LiNaVoice, zh-CN_WangWeiVoice und zh-CN_ZhangJingVoice
  • Niederländisch (Belgien): nl-BE_AdeleVoice
  • Niederländisch (Niederlande): nl-NL_EmmaVoice und nl-NL_LiamVoice
  • Englisch (Australien): en-AU_CraigVoice, en-AU_MadisonVoice und en-AU_SteveVoice
  • Koreanisch: ko-KR_HyunjunVoice, ko-KR_SiWooVoice, ko-KR_YoungmiVoice und ko-KR_YunaVoice
  • Schwedisch: sv-SE_IngridVoice

Weitere Informationen zu allen verfügbaren Sprachen und Stimmen finden Sie unter Sprachen und Stimmen.

Stimmen installieren

Sie können entweder die erweiterten neuronalen Stimmen oder die neuronalen Stimmen installieren. Sie können nur einen der beiden Arten von Stimmen installieren. Bei der Installation des Service geben Sie mit der Eigenschaft voiceType der angepassten Ressource an, welche Stimmen installiert werden sollen:

  • Geben Sie enhancedNeuralVoices an, um die erweiterten neuronalen Stimmen zu installieren. Anschließend müssen Sie die einzelnen erweiterten neuronalen Stimmen angeben, die installiert werden sollen. Standardmäßig werden nur en-US_AllisonV3Voice, en-US_LisaV3Voice und en-US_MichaelV3Voice installiert. Sie können diese Standardstimmen, die Standardstimmen und andere Stimmen oder nur andere Stimmen installieren. Es sind nur die Stimmen verfügbar, die Sie installieren.
  • Geben Sie neuralVoices an, um die neuronalen Stimmen zu installieren. Alle neuronalen Stimmen sind installiert und verfügbar. Sie können die Liste der installierten Stimmen nicht näher bearbeiten.

Weitere Informationen zur Verwendung der angepassten Ressource zum Installieren von Stimmen finden Sie unter Watson Text to Speech.

Stimme für Sprachsynthese angeben

Sowohl die HTTP-Methoden POST und GET /v1/synthesize als auch die WebSocket-Methode /v1/synthesize akzeptieren einen optionalen Abfrageparameter voice, mit dem Sie die Stimme angeben, die für die Sprachsynthese verwendet werden soll. Wenn Sie den Parameter voice weglassen, verwendet der Service eine Standardstimme. Die Standardstimme hängt von den installierten Stimmen ab:

  • Wenn Sie die erweiterten neuronalen Stimmen installiert haben, verwendet der Service standardmäßig die Stimme für amerikanisches Englisch en-US_MichaelV3Voice. Wenn diese Stimme nicht installiert ist, müssen Sie eine Stimme angeben.
  • Wenn Sie die neuronalen Stimmen installiert haben, verwendet der Service standardmäßig die Stimme für australisches Englisch en-AU_MadisonVoice.

Weitere Informationen finden Sie unter Stimme für Sprachsynthese verwenden.

Sprache für ein angepasstes Modell angeben

Sie verwenden die Methode POST /v1/customizations zum Erstellen eines angepassten Modells. Die Methode enthält den Parameter language, mit dem Sie die Sprache des neuen angepassten Modells angeben können.

  • Wenn Sie die erweiterten neuronalen Stimmen installiert haben, ist der Parameter language optional. Standardmäßig verwendet der Service die Kennung en-US für die Sprache.
  • Wenn Sie die neuronalen Stimmen installiert haben, ist der Parameter language erforderlich. Sie müssen die Sprache für das angepasste Modell im angegebenen Format angeben (z. B. en-AU für australisches Englisch).

Weitere Informationen zum Angeben einer Sprache beim Erstellen eines angepassten Modells finden Sie unter Angepasstes Modell erstellen.

Defekt behoben: Korrekte Intonation für spanische erweiterte neuronale Stimmen

Fehlerkorrektur: Für kastilisches Spanisch (es-ES_EnriqueV3Voice und es-ES_LauraV3Voice), lateinamerikanisches Spanisch (es-LA_SofiaV3Voice) und nordamerikanisches Spanisch (es-US_SofiaV3Voice) wird bei Fragen aller Typen jetzt die richtige Intonation verwendet. Bei den Stimmen wurde zuvor für einige Fragen nicht die richtige Intonation verwendet, sodass sie wie Aussagen betont wurden.

Defekt behoben: Korrigierte Multitenancy-Dokumentation

Fehlerkorrektur: Im Abschnitt Multi-Tenant-Unterstützung von IBM Cloud Pak for Data wurde fälschlicherweise angegeben, dass die Speech-Services die Multi-Tenant-Funktionalität nicht unterstützen. Das Thema wurde dahingehend aktualisiert, dass die Speech-Services die folgenden Operationen unterstützen:

  • Installation des Service in separaten Projekten
  • Installation des Service mehrfach in demselben Projekt
  • Einmalige Installation des Service und Bereitstellung mehrerer Instanzen in demselben Projekt

In der Dokumentation für die Speech-Services wurde die Multi-Tenant-Unterstützung ordnungsgemäß angegeben.

1. Oktober 2021 (Version 1.1.x)

Unterstützung für Version 1.1.x wurde eingestellt
Die Unterstützung für Text to Speech und Speech to Text for IBM Cloud Pak for Data Version 1.1.x wurde am 30. September 2021 eingestellt. Ab dem 1. Oktober 2021 ist die Dokumentation für Version 1.1.x nicht mehr verfügbar. Weitere Informationen finden Sie unter Software-Zurückziehung und Einstellung der Unterstützung.

29. Juli 2021 (Version 4.0.0)

Version 4.0.0 ist verfügbar

IBM Watson® Text to Speech for IBM Cloud Pak® for Data Version 4.0.0 ist jetzt verfügbar. Bei der Installation und Verwaltung des Service gibt es viele Änderungen. Diese Version unterstützt IBM Cloud Pak for Data Version 4.x und Red Hat OpenShift Version 4.6. Weitere Informationen zu Installation und Verwaltung des Service finden Sie unter IBM Watson Text to Speech for IBM Cloud Pak for Data installieren.

Erweiterte neuronale Stimmen

Um die Gesamtqualität der Sprachsynthese zu optimieren, sind jetzt alle verfügbaren Stimmen erweiterte neuronale Stimmen. Erweiterte neuronale Stimmen, die die Zeichenfolge V3 in ihren Namen enthalten, sind jetzt für brasilianisches Portugiesisch, Großbritannien und amerikanisches Englisch, Französisch, Deutsch, Italienisch, Japanisch und Spanisch (alle Dialekte) verfügbar.

Erweiterte neuronale Stimmen unterstützen die Verwendung des IPA und von IBM Symbolic Phonetic Representation (SPR) mit dem SSML-Element <phoneme>. Erweiterte neuronale Stimmen erreichen darüber hinaus eine etwas höhere Qualität in Bezug auf eine natürliche Aussprache. Weitere Informationen finden Sie unter Sprachen und Stimmen.

Neue Stimme für kanadisches Französisch

Der Service unterstützt jetzt kanadisches Französisch mit der erweiterten neuronalen Stimme fr-CA_LouiseV3Voice. Die Stimme für kanadisches Französisch unterstützt die Anpassung und ist allgemein verfügbar (GA) für den Produktionseinsatz.

Neue Funktion "Tune by Example"

Mit der neuen Funktion "Tune by Example" können Sie steuern, wie der angegebene Text vom Service gesprochen wird. Bei der Funktion handelt es sich um eine Betafunktionalität, die nur für angepasste Modelle und Stimmen in amerikanischem Englisch unterstützt wird. Die Funktion besteht aus zwei Komponenten:

  • Angepasste Prompts schließen den geschriebenen Text ein, der gesprochen werden soll, und Audioaufzeichnungen enthalten den Text in der von Ihnen gewünschten Aussprache. Die Audiodaten geben Intonation, Kadenz und Betonung des synthetisierten Texts an. Der Prompt kann verschiedene Silben oder Wörter hervorheben, Pausen einführen, bei den synthetisierten Audiodaten eine insgesamt natürlichere Aussprache erreichen und die Aussprache an den zugehörigen Kontext anpassen.
  • Sprechermodelle stellen Registrierungsaudiodateien zu Benutzern bereit, von denen Prompts gesprochen werden. Ein Sprechermodell stellt Beispielaudiodaten für die Stimme eines Sprechers bereit. Vom Service wird ein auf die Stimme bezogenes Training durchgeführt, was dazu beitragen kann, dass qualitativ hochwertigere Prompts für den jeweiligen Sprecher erzeugt werden.

Sie geben einen angepassten Prompt mit einer Sprachsyntheseanforderung an, um anzugeben, wie der Text von der Stimme des Service gesprochen werden soll. Für die Angabe eines Prompts verwenden Sie die SSML-Erweiterung <ibm:prompt id="{prompt_id}"/>. In der synthetisierten Audioausgabe wird die Prosodie des Prompts kopiert.

Weitere Informationen zur Verwendung der Funktion "Tune by Example" finden Sie in den folgenden Abschnitten:

Der Service beinhaltet acht neue Methoden für die Arbeit mit der Funktion "Tune by Example". Die folgenden Beschreibungen der neuen Methoden enthalten Links zu den entsprechenden Abschnitten in der Referenz zu APIs und SDKs.

Einheitliche Text to Speech-Dokumentation

Die Dokumentation für IBM Watson Text to Speech for IBM Cloud Pak for Data ist jetzt mit der Dokumentation für verwaltete Instanzen des Service Text to Speech kombiniert, die auf IBM Cloud gehostet werden. Dies gilt sowohl für das Handbuch als auch für die Referenzdokumentation für die beiden Formen des Service. Links zur bisher separaten Version der IBM Cloud Pak for Data-Dokumentation für den Service führen jetzt zur einheitlichen Dokumentation.

Weitere Informationen zur Kennzeichnung von Informationen, die nur eine Version des Produkts betreffen, finden Sie unter Informationen zu Text to Speech.

Unterstützung für Version 1.1.x wird eingestellt

Die Unterstützung für Speech to Text und Text to Speech for IBM Cloud Pak for Data Version 1.1.x wird am 30. September 2021 eingestellt. Sie müssen vor diesem Datum in IBM Cloud Pak for Data ein Upgrade auf eine höhere Version der Services durchführen. Ab 1. Oktober 2021 ist die Dokumentation für Version 1.1.4 nicht mehr verfügbar.

12. April 2021 (Version 1.2.1)

Ergänzung der Datei speech-override.yaml

Die Datei speech-override.yaml mit der Mindestmenge erforderlicher Einstellungen enthält eine zusätzliche Definition: dockerRegistryPrefix:

global:
  dockerRegistryPrefix: "{Registry}"
  image:
    pullSecret: "{Registry_pull_secret}"

{Registry} ist der Pfad für die interne Docker-Registry. Es muss sich um image-registry.openshift-image-registry.svc:5000/{namespace} handeln, wobei {namespace} der Namensbereich ist, in dem IBM Cloud Pak® for Data installiert ist (normalerweise zen).

9. April 2021 (Version 1.2.1)

Unterstützung für das Ändern installierter Modelle und Stimmen
In den Speech-Services können Sie installierte Modelle und Stimmen für Version 1.2 oder 1.2.1 der Services hinzufügen oder entfernen.

26. März 2021 (Version 1.2.1)

Version 1.2.1 ist verfügbar

Text to Speech for IBM Cloud Pak for Data Version 1.2.1 ist jetzt verfügbar. Für Version 1.2.1 wurden die Dokumentation und die Installationsanweisungen von Version 1.2 beibehalten. Version 1.2.1 unterstützt neben einer Installation unter den Versionen 4.5 und 3.11 auch eine Installation unter Red Hat OpenShift Version 4.6.

Neue Installationsanweisungen

Für Cluster, die mit dem Internet verbunden sind, und für durch eine Air-Gap geschützte Cluster umfassen die Installationsanweisungen die folgenden Schritte:

  • Verwenden Sie den Befehl oc label, um erforderliche Bezeichnungen für den Namensbereich einzurichten, in dem IBM Cloud Pak for Data installiert ist.
  • Verwenden Sie den Befehl oc project, um sicherzustellen, dass Sie auf das richtige OpenShift-Projekt verweisen.
  • Verwenden Sie den Befehl cpd-cli install, um einen Enterprise DB PostgreSQL-Server zu installieren, der von den Speech-Services verwendet wird.

Diese Schritte sind vor der Installation der Speech-Services auszuführen.

Neue Deinstallationsanweisungen

Der Prozedur zum Deinstallieren der Speech-Services wurde ein Schritt hinzugefügt, um alle Ressourcen in Bezug auf die Installation zu bereinigen.

Berechtigte Registry für PostgreSQL-Datenspeicher

Der Pfad für die berechtigte Registry, aus der vom Service Images für den PostgreSQL-Datenspeicher extrahiert werden, wurde geändert. Die Registryposition wurde von cp.icr.io/cp/watson-speech in cp.icr.io/cp/cpd geändert. Diese Änderung ist für Benutzer transparent.

Geheime Schlüssel für Minio- und PostgreSQL-Datenspeicher

Die Minio- und PostgreSQL-Datenspeicher erfordern die folgenden fest codierten Werte für die zugehörigen geheimen Schlüssel:

  • Verwenden Sie für Minio minio.
  • Verwenden Sie für PostgreSQL user-provided-postgressql.

Sie können für diese geheimen Schlüssel keine eigenen Werte verwenden. Die geheimen Schlüssel müssen vor der Installation der Speech-Services erstellt werden.

In der Datei speech-override.yaml gelöschte Einträge

Die folgenden Einträge wurden in der Datei speech-override.yaml entfernt. Sie wurden hinzugefügt, um ein Problem zu umgehen, das jetzt behoben wurde.

sttRuntime:
  images:
    miniomc:
      tag:
        1.0.5
sttAMPatcher:
  images:
    miniomc:
      tag:
        1.0.5
ttsRuntime:
  images:
    miniomc:
      tag:
        1.0.5

Die gekürzte Datei speech-override.yaml wurde insgesamt verkleinert, da der Inhalt gestrafft und auf die wesentlichen Elemente reduziert wurde.

9. Dezember 2020 (Version 1.2)

Version 1.2 ist verfügbar

Text to Speech für IBM Cloud Pak for Data Version 1.2 ist jetzt verfügbar. Bei der Installation und Verwaltung des Service gibt es viele Änderungen. Diese Version unterstützt IBM Cloud Pak for Data Version 3.5 und 3.0.1 sowie Red Hat OpenShift Version 4.5 und 3.11.

Neue Stimmen

Der Dienst bietet jetzt zwei neue Stimmen:

  • Englisch (Vereinigtes Königreich): en-GB_CharlotteV3Voice
  • Französisch:fr-FR_NicolasV3Voice

Der Service beinhaltet auch eine verbesserte Version der vorhandenen britischen Stimme en-KateV3Voice. Weitere Informationen zu allen unterstützten Stimmen finden Sie unter Sprachen und Stimmen.

Defekt beheben: Fix <prosody> Element für Japanisch

Fehlerkorrektur: Für die Stimme ja-JP_EmiV3Voice analysiert der Service jetzt den SSML-Eingabetext korrekt, der eine Spezifikation für 'prosody rate' enthält. Zuvor erfüllte die folgende Verwendung des Elements <prosody> denselben Zweck:

<speak>成功する/繁栄する</speak>

Die folgende Verwendung des Attributs für Sprechtempo mit dem Element <prosody> hat jedoch dazu geführt, dass die eingebettete SSML-Notation vom Service gelesen und ausgegeben wurde:

<speak>
  <prosody rate="fast">成功する/繁栄する</prosody>
</speak>

Das Attribut rate des Elements <prosody> für japanische Eingabe wird jetzt vom Service ordnungsgemäß analysiert und angewendet.

4. September 2020 (Version 1.1.4)

Anpassungsschnittstelle ist allgemein verfügbar
Die Anpassungsschnittstelle ist jetzt allgemein verfügbar. Anpassung ist keine Betafunktionalität mehr. Sie können die Anpassungsschnittstelle verwenden, um anzugeben, wie der Service ungewöhnliche aus Ihrem Eingabetext ausspricht, indem Sie sprachspezifische benutzerdefinierte Wörterverzeichnisse erstellen. Weitere Informationen enthält der Abschnitt Wissenswertes über die Anpassung.

15. Juli 2020 (Version 1.1.4)

Unterstützung für Red Hat OpenShift Version 4.3 wird eingestellt
IBM Cloud Pak for Data 3.0.1 stellt die Unterstützung für Red Hat OpenShift 4.3 am 1. September 2020 ein. Die Unterstützung für Red Hat OpenShift 4.3 wird am 22. Oktober 2020 eingestellt. Bei IBM Cloud Pak for Data wird die Unterstützung für Red Hat OpenShift 4.5 eingeführt. Kunden mit IBM Cloud Pak for Data wird empfohlen, vor dem 22. Oktober 2020 ein Upgrade auf Red Hat OpenShift 4.5 durchzuführen. Der IBM Support wird mit allen Kunden zusammenarbeiten, die bereits IBM Cloud Pak for Data 3.0.1 unter Red Hat OpenShift 4.3 installiert haben. Neue Kunden, die eine Installation unter Red Hat OpenShift 4.x planen, werden angewiesen, Red Hat OpenShift 4.5 zu installieren.

19. Juni 2020 (Version 1.1.4)

Version 1.1.4 ist verfügbar

Text to Speech für IBM Cloud Pak for Data Version 1.1.4 ist jetzt verfügbar. Bei der Installation und Verwaltung des Service gibt es viele Änderungen. Diese Version unterstützt IBM Cloud Pak for Data Version 2.5 und 3.0.1 sowie Red Hat OpenShift Version 3.11 und 4.3. Für weitere Informationen zur Installation und Verwaltung des Dienstes siehe Installation und Verwaltung von Text to Speech für IBM Cloud Pak for Data.

Neue neuronale Stimmen

Der Service unterstützt jetzt fünf neue neuronale Stimmen:

  • Amerikanisches Englisch: en-US_EmilyV3Voice, en-US_HenryV3Voice, en-US_KevinV3Voice und en-US_OliviaV3Voice
  • Deutsch: de-DE_ErikaV3Voice

Diese neuen Stimmen verfügen über die gleichen Möglichkeiten für Anpassung und SSML wie alle vorhandenen Stimmen. Weitere Informationen enthält der Abschnitt Unterstützte Sprachen und Stimmen.

Unterstützung für das SSML-Attribut digits des Elements <say-as> für Japanisch

Das Attribut digits des SSML-Elements <say-as> wird jetzt vom Service mit der japanischen Stimme unterstützt. Weitere Informationen finden Sie unter Element <say-as>.

Vereinfachte Sicherungs- und Wiederherstellungsprozeduren

Die Sicherungs- und Wiederherstellungsprozeduren wurden stark vereinfacht. Daten werden jetzt aus den Datenspeichern wiederhergestellt, sodass Sie die von Ihnen ausgeführten Operationen nicht mehr neu erstellen müssen. Weitere Informationen finden Sie unter Sichern und Wiederherstellen von Watson Sprachdienste-Daten.

28. Februar 2020 (Version 1.1.3)

Version 1.1.3 ist verfügbar
Version 1.1.3 von Text to Speech für IBM Cloud Pak for Data ist jetzt verfügbar.

27. November 2019 (Version 1.1.2)

Version 1.1.2 ist verfügbar
Version 1.1.2 von Text to Speech für IBM Cloud Pak for Data ist jetzt verfügbar.

30. August 2019 (Version 1.0.1)

Version 1.0.1 ist verfügbar
Version 1.0.1 von Text to Speech für IBM Cloud Pak for Data ist jetzt verfügbar. Der Service arbeitet nun mit IBM Cloud Pak for Data 2.1.0.1. Der Service unterstützt jetzt die Installation von IBM Cloud Pak for Data mit Red Hat OpenShift.
Neue neuronale Stimme für Japanisch
Der Service bietet jetzt die neuronale japanische Stimme ja-JP_EmiV3Voice an. Weitere Informationen enthält der Abschnitt Unterstützte Sprachen und Stimmen.
FISMA-Unterstützung
Die FISMA-Unterstützung (Federal Information Security Management Act) steht jetzt für Text to Speech für IBM Cloud Pak for Data zur Verfügung. Für den Service gilt die FISMA-Konformitätsstufe 'High Ready'.

28. Juni 2019 (Version 1.0.0)

Version 1.0.0 ist verfügbar

Version 1.0.0, das erste Release des Service, ist jetzt verfügbar. Text to Speech for IBM Cloud Pak for Data basiert auf dem Service IBM Watson® Text to Speech in der öffentlichen IBM Cloud. Text to Speech for IBM Cloud Pak for Data unterscheidet sich von dem öffentlichen Service Text to Speech wie im Folgenden beschrieben. Diese Informationen könnten hilfreich für Sie sein, falls Sie bereits mit dem Text to Speech-Service in der öffentlichen IBM Cloud vertraut sind.

  • Text to Speech für IBM Cloud Pak for Data verwendet Zugriffstoken für die Authentifizierung. Weitere Informationen finden Sie in der API-& SDK-Referenz.
  • Die Endpunkte für Text to Speech für IBM Cloud Pak for Data gelten speziell für Ihren IBM Cloud Pak for Data-Cluster. Weitere Informationen finden Sie in der API-& SDK-Referenz.
  • Text to Speech für IBM Cloud Pak for Data unterstützt nur neuronale Stimmen. Standardstimmen (konkatenative Stimmen) werden nicht unterstützt. Die neuronalen Stimmen unterstützen die SSML-Elemente <express-as> und <voice-transformation> nicht.
  • Text to Speech für IBM Cloud Pak for Data führt keine Anforderungsprotokollierung durch. Sie müssen den Anforderungsheader X-Watson-Learning-Opt-Out nicht verwenden.
  • Text to Speech für IBM Cloud Pak for Data unterstützt keine Watson-Tokens. Die Verwendung des Anforderungsheaders X-Watson-Authorization-Token für die Authentifizierung beim Service ist nicht möglich.