IBM Cloud Docs
Regeln für das Erstellen angepasster Prompts und Sprechermodelle

Regeln für das Erstellen angepasster Prompts und Sprechermodelle

Bei der Funktion "Tune by Example" handelt es sich um eine Betafunktionalität, die nur für angepasste Modelle und Stimmen in amerikanischem Englisch unterstützt wird.

Vom Service werden die folgenden Regeln für angepasste Prompts und Sprechermodelle durchgesetzt. Zu den Regeln gehören Richtlinien für die effektivste Nutzung der Funktion.

Regeln für das Erstellen angepasster Prompts

Die folgenden Regeln gelten für die ID, den Text und die Audiodaten, die Sie beim Hinzufügen eines angepassten Prompts zu einem angepassten Modell angeben.

Regeln für Prompt-IDs

Für die ID eines Prompts gilt Folgendes:

  • Verwenden Sie maximal 49 Zeichen.
  • Verwenden Sie nur alphanumerische Zeichen und _ (Unterstriche).
  • Verwenden Sie keine Zeichen, die in XML eine besondere Bedeutung haben (doppelte Anführungszeichen, einfache Anführungszeichen, Et-Zeichen und Schrägstriche).
  • Für das Hinzufügen eines neuen Prompts muss die ID für das angegebene angepasste Modell eindeutig sein. Andernfalls wird der bestehende Prompt, der die betreffende ID aufweist, von den Informationen für den neuen Prompt überschrieben.

Regeln für den Text eines Prompts

Für den geschriebenen Text eines Prompts gilt Folgendes:

  • Schreiben Sie den Text eines Prompts wie gewohnt, Kommas und die Satzzeichen am Satzende eingeschlossen. Tune by Example richtet die Prosodie und Intonation des Prompts jedoch an den Audiodaten des Prompts aus, nicht an der Zeichensetzung im Text eines Prompts, wie dies bei der regulären Sprachsynthetisierung der Fall ist. Nur die Aussprache in den Audiodaten wirkt sich auf die Prosodie des synthetisierten Prompts aus.

  • Ein Prompt darf nicht mehr als 1000 Zeichen Text enthalten. Empfohlen wird ein maximaler Umfang von ein bis zwei Sätzen.

  • Ein Prompt kann nur festen, statischen Text enthalten. Variable Daten, d. h. Daten, die sich je nach Verwendung des Prompts ändern, dürfen nicht enthalten sein. Der Satz: "Ihr Kontostand beträgt 500 €" enthält beispielsweise die variablen Daten "500 €". Diese Angabe ändert sich je nach dem Kontostand des Benutzers. In diesem Fall muss der Prompt "Ihr Kontostand ist" enthalten und eine zweite Synthetisierungsanforderung muss den Kontostand beinhalten.

  • Versehen Sie Zeichen, die in XML eine besondere Bedeutung haben (doppelte Anführungszeichen, einfache Anführungszeichen, Et-Zeichen, spitze Klammern und Schrägstriche), im Text eines Prompts mit Escapezeichen. Wenden Sie dabei dieselben Regeln an wie beim Bereitstellen von Text für eine Synthetisierungsanforderung. Weitere Informationen finden Sie im Abschnitt XML-Steuerzeichen mit Escapezeichen versehen.

  • Sie können SSML-Elemente in den Text eines Prompts einfügen. Beispielsweise kann die Aussprache von Wörtern wie Montage oder eine Eingabe, die Datumsangaben oder Zahlen enthält, mehrdeutig sein. Möglicherweise müssen Sie dem Service mitteilen, wie derartige Wörter auszusprechen sind, damit bekannt ist, wie der Eingabetext mit den Audiodaten zu synchronisieren ist. In den meisten Fällen ist die Zuordnung zwischen Phonemen und Text jedoch offensichtlich.

    Das SSML-Element <say-as> wird beispielsweise verwendet, um anzugeben, wie Zahlen, Buchstaben und Datumsangaben von den Services wiederzugeben sind. Im folgenden Beispiel wird der Service angewiesen, den Wert 123456 nicht als sechsstellige Dezimalzahl wiederzugeben, sondern als einzelne Ziffern.

    <speak version="1.1">
      <say-as interpret-as="digits">123456</say-as>
    </speak>
    

    Weitere Informationen finden Sie unter SSML-Elemente und Element 'say-as'.

Regeln für die Audiodaten eines Prompts

Für die gesprochene Audioausgabe eines Prompts gilt Folgendes:

  • Die Audiodaten müssen im WAV-Format vorliegen und eine Mindestabtastfrequenz von 16 kHz aufweisen. Der Service akzeptiert Audiodaten mit höheren Abtastraten. Sie werden vor der Verarbeitung auf 16 kHz umgestellt.
  • Die Länge der Audiodaten eines Prompts ist auf 30 Sekunden begrenzt.
  • Stellen Sie sicher, dass der Text des Prompts in den Audiodaten des Prompts in Bezug auf die Prosodie (Intonation, Satzmelodie, Sprechtempo, Sprechrhythmus und Pausen) so gesprochen wird, wie der Prompt von einer der Stimmen des Service gesprochen werden soll. Die Prosodie kann bei einem Prompt auf unterschiedlichste Weise geändert werden. Dazu einige Beispiele:
    • Wenn Sie eine Frage formulieren, sorgen Sie dafür, dass sie wie eine Frage klingt. Beispielsweise steigt die Tonhöhe am Ende einer Frage in der Regel an.
    • Wenn Sie einen Befehl sprechen, sorgen Sie dafür, dass er wie ein Befehl klingt. Betonen Sie die Wörter der Wortfolge, die für den Befehl entscheidend sind.
    • Beeinflussen Sie das Sprechtempo, indem Sie die Aussprache auf Wort- und Silbenebene beschleunigen oder verlangsamen.
    • Steuern Sie die Tonhöhe, indem Sie die Stimme bei Wörtern und Silben anheben oder senken. Die Tonhöhe kann bei Prompts mit Sprechermodellen wesentlich besser gesteuert werden.
    • Fügen Sie Pausen ein, um bestimmte Aspekte der Wortfolge zu betonen. Pausen am Anfang und Ende werden entfernt.
  • Sie können die Aussprache eines Wortes nicht ändern. Für Wörter wird vom Service die Aussprache verwendet, die über das zugehörige Standardwörterverzeichnis und für alle angepassten Wörter, die für das Modell des angepassten Prompts definiert sind, vorgegeben wird. Weitere Informationen finden Sie unter Tune by Example und die Aussprache von Wörtern.
  • Sie können den Ausdruckskraft einer Wortfolge, z. B. in Bezug auf Zufriedenheit oder Traurigkeit, nicht steuern. Diese Merkmale unterscheiden sich von der Intonation und können von der Funktion nicht ausreichend erfasst werden.
  • Sie können die Lautstärke einer Wortfolge nicht steuern. Die Lautstärke des gesprochenen Prompts wird vom Service ignoriert.

Regeln für das Erstellen von Sprechermodellen

Die folgenden Regeln gelten für den Namen und die Registrierungsaudiodatei, den bzw. die Sie beim Erstellen eines Sprechermodells bereitstellen.

Regeln für Sprechernamen

Für den Namen eines Sprechermodells gilt Folgendes:

  • Verwenden Sie maximal 49 Zeichen.
  • Verwenden Sie nur alphanumerische Zeichen und _ (Unterstriche).
  • Verwenden Sie keine Zeichen, die in XML eine besondere Bedeutung haben (doppelte Anführungszeichen, einfache Anführungszeichen, Et-Zeichen und Schrägstriche).
  • Verwenden Sie nicht den Namen eines vorhandenen Sprechermodells, das bereits für die Serviceinstanz definiert ist. Der Name eines Sprechermodells muss für die zugehörige Serviceinstanz eindeutig sein. Wenn ein Sprechermodell für einen vorhandenen Sprechernamen neu erstellt werden soll, muss zuerst das vorhandene Modell, das den betreffenden Namen trägt, gelöscht werden.

Regeln für die Audiodatei für den Sprecher

Für die Registrierungsaudiodatei eines Sprechermodells gilt Folgendes:

  • Die Audiodaten müssen im WAV-Format vorliegen und eine Mindestabtastfrequenz von 16 kHz aufweisen. Der Service akzeptiert Audiodaten mit höheren Abtastraten. Sie werden vor der Verarbeitung auf 16 kHz umgestellt.
  • Die Länge der Registrierungsaudiodatei ist auf 1 Minute begrenzt. Es wird empfohlen, einen oder zwei Absätze mit fünf bis zehn Sätzen zu sprechen.
  • Verwenden Sie für die Registrierungsaudiodatei Ihre normale Sprechweise. Dies ermöglicht es dem Service, Ihre normale Sprechstimme zu ermitteln und diese Informationen auf dem Sprechermodell zugeordnete Prompts anzuwenden.