Mit Korpora und angepassten Wörtern für große Sprachmodelle und Modelle der nächsten Generation arbeiten
Diese Informationen sind spezifisch für benutzerdefinierte Modelle, die auf großen Sprachmodellen und Modellen der nächsten Generation basieren. Informationen zu Korpora und angepassten Wörtern für angepasste Modelle, die auf Modellen der vorherigen Generation basieren, finden Sie in Korpora und angepasste Wörtern für Modelle der vorherigen Generation verwenden.
Sie können ein angepasstes Sprachmodell mit Wörtern füllen, indem Sie Korpora zum Modell hinzufügen oder angepasste Wörter direkt im Modell hinzufügen. Sie verwenden dieselben Methoden und Vorgänge für große Sprachmodelle, Modelle der vorherigen und der nächsten Generation. Weitere Informationen zum Hinzufügen von Korpora und angepassten Wörtern zu einem Modell finden Sie unter Mit Korpora für große Sprachmodelle und Modelle der nächsten Generation arbeiten und unter Mit angepassten Wörtern für große Sprachmodelle und Modelle der nächsten Generation arbeiten.
Obwohl die Anpassung von Sprachmodellen in der Verwendung und Absicht für große Sprachmodelle, Modelle der vorherigen und der nächsten Generation ähnlich ist, gibt es Unterschiede zwischen den drei Modelltypen auf der Implementierungsebene. Um zu verstehen, wie die Anpassung von Sprachmodellen bei großen Sprachmodellen und Modellen der nächsten Generation funktioniert und wie Sie die Anpassung optimal nutzen können, benötigen Sie ein grundlegendes Verständnis der Unterschiede.
-
Wenn Sie ein benutzerdefiniertes Sprachmodell erstellen und verwenden, das auf einem großen Sprachmodell oder einem Modell der vorherigen Generation basiert, stützt sich der Dienst auf Wörter aus dem benutzerdefinierten Modell, um Transkripte zu erstellen, die domänenspezifische Begriffe enthalten. Der Service verwendet die diese Wörter aus dem angepassten Modell zusammen mit Wörtern aus dem eigenen Basisvokabular, um sprachliche Äußerungen in Audiodaten vorherzusagen und zu transkribieren. Sie stellen die Informationen für ein angepasstes Sprachmodell in Form von Korpora, angepassten Wörtern und Grammatiken bereit. Der Service speichert diese Informationen in der Wörterressource für das angepasste Modell.
-
Wenn Sie ein angepasstes Sprachmodell erstellen, das auf einem Modell der nächsten Generation basiert, greifen die Services auf Zeichenfolgen aus dem angepassten Modell zurück, um Transkriptionen zu erstellen, die domänenspezifische Begriffe berücksichtigen. In Kombination mit den Zeichenfolgen des Basismodells verwendet der Dienst diese Zeichenfolgen des benutzerdefinierten Modells, um Sprache aus Audio vorherzusagen und zu transkribieren.
Sie stellen die Informationen für ein angepasstes Sprachmodell in Form von Korpora, angepassten Wörtern und Grammatiken bereit. Der Service arbeitet jedoch nicht einfach mit einer Wörterressource, in der diese Wörter enthalten sind, sondern extrahiert und speichert Zeichenfolgen aus den Korpora und angepassten Wörtern. Der Service extrahiert und berechnet keine vokabularexternen Wörter (OOV-Wörter) aus Korpora und angepassten Wörtern. In der Wörterressource werden lediglich angepasste Wörter gespeichert, die Sie direkt zum Modell hinzufügen.
Wenn Sie ein benutzerdefiniertes Sprachmodell auf der Grundlage eines großen Sprachmodells oder eines Modells der nächsten Generation entwickeln, müssen Sie dennoch Korpora und benutzerdefinierte Wörter bereitstellen, um das Modell auf domänenspezifische Terminologie zu trainieren. Der Prozess der Erstellung und des Trainings eines benutzerdefinierten Modells ist also für große Sprachmodelle, Modelle der nächsten Generation und Modelle der vorherigen Generation weitgehend gleich.
In den folgenden Themen werden die Regeln für die Bereitstellung von Korpora und benutzerdefinierten Wörtern für ein benutzerdefiniertes Sprachmodell beschrieben, das auf großen Sprachmodellen und Modellen der nächsten Generation basiert. Die Regeln ähneln denen für die Arbeit mit einem angepassten Modell, das auf einem Modell einer früheren Generation basiert. Es gibt jedoch einige wichtige Unterschiede.
Die Wörterressource
Die Wörterressource enthält angepasste Wörter, die Sie direkt zum angepassten Modell hinzufügen. Die Wörterressource enthält die folgenden Informationen zu jedem angepassten Wort:
-
word
- Die Schreibweise des von Ihnen hinzugefügten Worts.Verwenden Sie keine Zeichen, die eine URL-Codierung erforderlich machen. Verwenden Sie beispielsweise keine Leerzeichen, Schrägstriche, Backslashes, Doppelpunkte, kaufmännische Und-Zeichen, doppelte Anführungszeichen, Pluszeichen, Gleichheitszeichen, Fragezeichen usw. im Namen. Der Dienst verhindert nicht die Verwendung dieser Zeichen, aber da sie bei jeder Verwendung URL-codiert werden müssen, wird dringend davon abgeraten.
-
sounds_like
- Die Aussprache des Wortes. Sie können das Feldsounds_like
verwenden, um eine oder mehrere Aussprachevarianten für das Wort hinzuzufügen. Weitere Informationen finden Sie im Abschnitt Das Feld 'sounds_like' verwenden. -
display_as
- Gibt die Schreibweise für das Wort an, die vom Service in Transkriptionen verwendet wird. Wenn Sie keine alternative Variante angeben, entspricht die Schreibweise dem Wert des Feldsword
. Weitere Informationen finden Sie im Abschnitt Das Feld 'display_as' verwenden. -
source
- Gibt an, wie das Wort zur Wörterressource hinzugefügt wurde. Das Feld enthält immer die Zeichenfolgeuser
, um darauf hinzuweisen, dass es direkt als angepasstes Wort hinzugefügt wurde.
Nachdem Sie ein benutzerdefiniertes Wort hinzugefügt oder geändert haben, ist es wichtig, dass Sie die Richtigkeit der Wortdefinition überprüfen. Weitere Informationen finden Sie unter Validierung einer Wortressource für große Sprachmodelle und Modelle der nächsten Generation. Außerdem muss das Modell trainiert werden, damit die Änderungen während der Transkription berücksichtigt werden. Weitere Informationen finden Sie unter Angepasstes Sprachmodell trainieren.
Sie können angepasste Wörter hinzufügen, die bereits vorhanden sind, um beispielsweise weitere gleich klingende Aussprachevarianten für allgemeine Wörter hinzuzufügen. Andernfalls gibt es keinen Grund, gemeinsame Wörter zu duplizieren. Solche Wörter verbleiben in der Wörterressource des Modells, aber sie sind harmlos und unnötig.
mapping_only
-Parameter für angepasste Wörter. Sie können den Schlüssel 'mapping_only' in angepassten Wörtern als Form der Nachverarbeitung verwenden. Dieser Schlüsselparameter hat einen booleschen Wert, um zu bestimmen, ob 'sounds_like' (für nicht japanische Modelle) oder 'word' (für Japanisch) nicht für die Modelloptimierung, sondern für den Ersatz für 'display_as' verwendet wird. Diese Funktion hilft Ihnen, wenn Sie benutzerdefinierte Wörter ausschließlich verwenden, um 'sounds_like' (oder Wort) dem Wert 'display_as' zuzuordnen. Wenn Sie angepasste Wörter ausschließlich für Nachverarbeitungszwecke verwenden und keine Feinabstimmung erforderlich ist.
Anwendungsfallbeispiele,
Vor der Verwendung von 'mapping_only': Speech to Text-Maschinenausgabe ist 'hilton honors' als ASR-Transkript. Sie möchten jedoch, dass es als 'HHonors' als endgültige Ausgabe angezeigt wird. Sie können das folgende benutzerdefinierte Wort verwenden, um 'hilton honors' 'HHonors' zuzuordnen.
{"word": "HHonors", "sounds_like": ["hilton honors"], "display_as": "HHonors"}
Während dies jedes Wort 'hilton honors' in der ASR-Transkription zu 'HHonors' abbildet, wird das Modell standardmäßig mit 'sounds_like' (hilton honors) verfeinert, auch wenn das Modell kein Problem hat, das Wort 'hilton honors' zu erkennen. Dies ist das Beispiel für Wörter, die nicht optimiert werden müssen, sondern 'display_as' zugeordnet werden müssen.
Nach Verwendung von 'mapping_only': Da das Modell Speech to Text das Wort "hilton honors" sehr gut erkennt, muss es nicht auf dieses Wort abgestimmt werden. So können Sie die folgenden angepassten Wörter verwenden, um das Training zu überspringen und das 'sounds_like 'zu' display_as ' zuzuordnen.
{"word": "HHonors", "sounds_like": ["hilton honors"], "display_as": "HHonors", "mapping_only": true}
Dieser Parameter gilt für Modelle der nächsten Generation, die die erweiterte Anpassung unterstützen (englische Modelle, ja-Jp-Modelle usw.). Siehe Liste der unterstützten Modelle.
Wie viele Daten brauche ich?
Die für ein effizientes angepasstes Sprachmodell erforderliche Datenmenge hängt von vielen Faktoren ab. Eine genaue Empfehlung, welche Datenmenge Sie für ein angepasstes Modell oder eine angepasste Anwendung hinzufügen sollten, kann nicht gegeben werden. Je nach Anwendungsfall kann die Qualität des Modells schon durch das direkte Hinzufügen weniger Wörter verbessert werden. Das Hinzufügen von Korpora, die die Wörter in dem Kontext darstellen, in dem sie verwendet werden, kann die Genauigkeit der Transkription erheblich verbessern.
Sie können insgesamt maximal 10.000.000 Wörter aus allen Quellen zu einem angepassten Modell hinzufügen. Diese Zahl umfasst alle Wörter, die in Korpora enthalten sind und die Sie direkt hinzufügen. Der Service verwendet alle Wörter aus einem Korpus, um zu ermitteln, in welchem Kontext Zeichenfolgen auftreten können. Darum sind Korpora eine effektive Methode zur Verbesserung der Erkennungsgenauigkeit.
Durch das Hinzufügen einer großen Anzahl von Korpora und Wörtern kann sich die Latenzzeit der Spracherkennung erhöhen, aber das genaue Ausmaß dieses Effekts ist schwer zu messen oder vorherzusagen. Genau wie das erforderliche Datenvolumen für ein effizientes angepasstes Modell, hängen auch die Auswirkungen eines großen Datenvolumens von zahlreichen Faktoren ab. Testen Sie Ihr angepasstes Modell mit verschiedenen Datenvolumen, um die Leistungsfähigkeit Ihrer Modelle ermitteln.
Richtlinien zum Hinzufügen von Wörtern zu angepassten Modellen auf der Basis verbesserter Modelle der nächsten Generation
Begrenzen Sie bei angepassten Modellen, die auf Sprachmodellen der nächsten Generation basieren, die eine verbesserte Anpassung verwenden, die Anzahl der angepassten Wörter, die Sie dem Modell direkt hinzufügen, mit den folgenden Methoden:
POST /v1/customizations/{customization_id}/words
PUT /v1/customizations/{customization_id}/words/{word_name}
Die Verwendung dieser Methoden zum Hinzufügen angepasster Wörter zu einem angepassten Modell kann die Trainingszeit des Modells erheblich verlängern. Die Trainingszeit steigt linear mit der Gesamtzahl der Wörter, die Sie hinzufügen. Die Trainingszeit erhöht sich jedoch nur, wenn das Modell zum ersten Mal mit den neuen angepassten Wörtern trainiert wird. Die Zeit, die für nachfolgende Trainingsanforderungen ohne neue angepasste Wörter erforderlich ist, wird wieder normal.
Das Training eines angepassten Modells mit Wörtern, die nur über Korpora hinzugefügt wurden, mit der folgenden Methode ist in der Regel schnell:
POST /v1/customizations/{customization_id}/corpora/{corpus_name}
Weitere Informationen zur verbesserten Anpassung für Modelle der nächsten Generation finden Sie unter Verbesserte Sprachmodellanpassung für Modelle der nächsten Generation.
Die nicht japanischen Modelle verwenden 'sounds_like' für die Zuordnung ('sounds_like '->' display_as ').
Richtlinien für das Hinzufügen von Wörtern zu japanischen Modellen auf der Basis verbesserter Modelle der nächsten Generation
Fügen Sie keine benutzerdefinierten Wörter für bekannte Wörter hinzu, Wörter, die allgemein erkannt werden und eine allgemeine Übereinstimmung zwischen dem Wort und seiner Aussprache aufweisen. Verwenden Sie angepasste Wörter, um eine Zuordnung zwischen der Schreibweise von weniger häufig verwendeten Wörtern und ihrer Ausprägung zu erstellen. Verwenden Sie auch benutzerdefinierte Wörter, um unbekannte Wörter hinzuzufügen, die keine Entsprechung zwischen dem Wort und seiner Aussprache haben oder die nicht allgemein als Wörter erkannt werden. Das Hinzufügen solcher Wörter zu einem Korpus ist ebenso effektiv.
Der Service erzwingt eine maximale Begrenzung von insgesamt 25 Zeichen (ohne führende oder nachgestellte Leerzeichen) für angepasste Wörter und Sounds. Wenn Sie ein angepasstes Wort hinzufügen oder gleich klingt, das diesen Grenzwert überschreitet,
behandelt der Service das Wort automatisch so, als wäre es von einem Korpus hinzugefügt worden. Das Wort wird nicht als angepasstes Wort für das Modell angezeigt. Für das effektivste Training wird empfohlen, dass japanische benutzerdefinierte
Wörter und Sounds nicht mehr als 20 Zeichen enthalten. Fügen Sie lange Wörter wie IBMクラウド音声認識サービス
zu einem Korpus hinzu.
Die Aussprache アイビーエム
für das Wort IBM
wird beispielsweise ohne Anpassung erkannt, sodass es nicht als angepasstes Wort hinzugefügt werden muss. Da es sich bei IBM
, クラウド
, 音声認識
und
サービス
um allgemeine Wörter handelt, hat das Hinzufügen als angepasste Wörter keine Auswirkung.
Geben Sie für ein angepasstes Wort eine häufig verwendete Notation ein, die die Verwendung und Aussprache des Wortes widerspiegelt. Dies ermöglicht eine effizientere Anpassung. Das folgende Beispiel erzeugt beispielsweise nicht zuverlässig
die Zeichenfolge Artificial_Intelligence
als Antwort auf die Äußerung エーアイ
, da Artificial_Intelligence
und 人工知能
im Allgemeinen nicht als AI
ausgesprochen werden:
{\"word\": \"Artificial_Intelligence\", \"sounds_like\": [\"エーアイ\"], \"display_as\": \"Artificial_Intelligence\"},
{\"word\": \"人工知能\", \"sounds_like\": [\"エーアイ\"], \"display_as\": \"Artificial_Intelligence\"}
Da der Kontext in der Regel so ähnlich wie これからAIはますます発展してきます
ist, ist AI
die am besten geeignete Notation für die gleich klingende エーアイ
. Das folgende Beispiel liefert daher wahrscheinlich bessere Ergebnisse:
{\"word\": \"AI\", \"sounds_like\": [\"エーアイ\"], \"display_as\": \"Artificial_Intelligence\"}
Schließlich werden in benutzerdefinierten Wörtern alphabetische Zeichen mit halber Breite in Zeichen voller Breite konvertiert. Englische Groß-und Kleinbuchstaben werden als unterschiedliche Zeichen behandelt.
Japanische Modelle verwenden Wort für Zuordnung ('Wort '->' display_as ').
Mit Korpora für große Sprachmodelle und Modelle der nächsten Generation arbeiten
Mit der Methode POST /v1/customizations/{customization_id}/corpora/{corpus_name}
können Sie ein Korpus zu einem angepassten Modell hinzufügen. Ein Korpus ist eine einfache Textdatei mit Beispielsätzen aus dem jeweiligen Fachgebiet.
Das folgende Beispiel zeigt ein Korpusfragment für das Gesundheitswesen. Eine Korpusdatei ist in der Regel sehr viel länger.
Am I at risk for health problems during travel?
Some people are more likely to have health problems when traveling outside the United States.
How Is Coronary Microvascular Disease Treated?
If you're diagnosed with coronary MVD and also have anemia, you may benefit from treatment for that condition.
Anemia is thought to slow the growth of cells needed to repair damaged blood vessels.
What causes autoimmune hepatitis?
A combination of autoimmunity, environmental triggers, and a genetic predisposition can lead to autoimmune hepatitis.
What research is being done for Spinal Cord Injury?
The National Institute of Neurological Disorders and Stroke NINDS conducts spinal cord research in its laboratories at the National Institutes of Health NIH.
NINDS also supports additional research through grants to major research institutions across the country.
Some of the more promising rehabilitation techniques are helping spinal cord injury patients become more mobile.
What is Osteogenesis imperfecta OI?
. . .
Zeichenfolgen in Wörtern aus einem angepassten Modell stehen in Konkurrenz zu Zeichenfolgen aus dem Basismodell sowie Sequenzen aus anderen Wörtern des Modells. (Außerdem beeinflussen Faktoren wie Störanteile in den Audiodaten und Akzente der Sprecher die Qualität der Transkription.)
Die Genauigkeit der Transkription kann in erheblichem Umfang von den Daten abhängen, die Sie zu einem Modell hinzufügen, und davon, wie Wörter in Audiodaten von den Sprechern ausgesprochen werden. Zum Verbessern der Genauigkeit des Service werden Korpora eingesetzt, um möglichst viele Beispiele für die Verwendung von Wörtern in einer Domäne bereitzustellen. Durch das wiederholte Vorkommen der Wörter in Korpora kann die Qualität eines angepassten Sprachmodells verbessert werden. Welche Aussprachevarianten aus Korpora übernommen werden, hängt davon ab, wie die Wörter von den Sprechern in den zu untersuchenden Audiodaten vermutlich ausgesprochen werden. Je mehr hinzugefügte Sätze den Kontext wiedergeben, in dem Sprecher die Wörter aus dem jeweiligen Fachgebiet verwenden, umso besser die Erkennungsgenauigkeit des Service.
Beispiel: Buchhalter greifen auf eine allgemeine Gruppe von Standards und Verfahren zurück, die als GAAP (Generally Accepted Accounting Principles) bezeichnet werden. Geben Sie daher beim Erstellen eines angepassten Modells für ein Fachgebiet aus dem Finanzwesen Sätze an, die den Begriff GAAP im Kontext verwenden. Mithilfe dieser Sätze kann der Service besser zwischen allgemeinen Ausdrücken wie "the gap between them is small" und fachspezifischen Ausdrücken wie "GAAP provides guidelines for measuring and disclosing financial information" unterscheiden.
Im Allgemeinen ist es hilfreicher, wenn Korpora Wörter in unterschiedlichen Kontexten enthalten. Dies erhöht den Wirkungsgrad des Service beim Lernen von Ausdrücken. Wenn Benutzer die Wörter jedoch nur in einigen Kontexten aussprechen, verbessert die Anzeige der Wörter in anderen Kontexten die Qualität des angepassten Modells nicht: Sprecher verwenden die Wörter in diesen Kontexten nie. Wenn Sprecher häufig denselben Ausdruck (Wortfolge) verwenden, kann die Wiederholung dieses Ausdrucks in den Korpora die Qualität des Modells verbessern. In manchen Fällen kann sich auch das direkte Hinzufügen einiger angepasster Wörter in einem angepassten Modell positiv auswirken.
Korpustextdatei vorbereiten
Gehen Sie wie folgt vor, um eine Korpustextdatei vorzubereiten:
-
Stellen Sie eine einfache Textdatei mit UTF-8-Codierung bereit, wenn die Datei Nicht-ASCII-Zeichen enthält. Der Service setzt die UTF-8-Codierung voraus, wenn solche Zeichen vorkommen.
Stellen Sie sicher, dass Sie die Zeichencodierung Ihrer Korpustextdateien kennen. Der Service behält die in den Textdateien verwendete Codierung bei. Beim Arbeiten mit angepassten Wörtern im angepassten Modell muss die gleiche Codierung verwendet werden. Weitere Informationen finden Sie unter Zeichencodierung für angepasste Wörter.
-
Verwenden Sie für die Wörter im Korpus eine konsistente Großschreibung. Verwenden Sie die gemischte Groß-/Kleinschreibung und die durchgängige Großschreibung nur, wenn dies ausdrücklich gewünscht ist.
-
Fügen Sie jeden Satz aus dem Korpus in eine eigene Zeile ein und beenden Sie jede Zeile mit einem Wagenrücklauf. Mehrere Sätze in einer Zeile können die Genauigkeit beeinträchtigen.
-
Fügen Sie Personennamen als getrennte Einheiten in separaten Zeilen hinzu. Fügen Sie nicht die einzelnen Bestandteile eines Namens in separaten Zeilen oder als einzelne angepasste Wörter hinzu, und fügen Sie nicht mehrere Namen in derselben Zeile eines Korpus hinzu. Das folgende Beispiel veranschaulicht die richtige Vorgehensweise, um die Erkennungsgenauigkeit für drei Namen zu verbessern:
Gakuto Kutara Sebastian Leifson Malcolm Ingersol
Fügen Sie gegebenenfalls zusätzliche Kontextinformationen hinzu (z. B.
Doctor Sebastian Leifson
oderPresident Malcolm Ingersol
). Wie bei allen Wörtern kann auch bei Namen das mehrfache Vorkommen die Genauigkeit der Erkennung verbessern. -
Vermeiden Sie Schreibfehler. Der Service geht bei Schreibfehlern davon aus, dass es sich um neue Wörter handelt. Denken Sie an den Spruch: Wo Müll reingeht, kommt auch Müll raus!
-
Mehr Sätze erzielen eine größere Genauigkeit. Der Service begrenzt ein Modell auf maximal 10 Millionen Wörter aus allen Quellen zusammen.
Was passiert, wenn ich eine Korpusdatei hinzufüge?
Wenn Sie eine Korpusdatei hinzufügen, analysiert der Service den Inhalt der Datei. Um den größtmöglichen Bedeutungsgehalt aus dem Inhalt zu destillieren, fügt der Service Tokens ein und analysiert die aus einer Korpusdatei gelesenen Daten. In den folgenden Themen wird beschrieben, wie der Dienst eine Korpusdatei für jede unterstützte Sprache analysiert.
Informationen für die folgenden Sprachen sind noch nicht verfügbar: Arabisch, Chinesisch, Tschechisch, Hindi und Schwedisch. Wenn Sie diese Informationen für Ihr angepasstes Sprachmodell benötigen, wenden Sie sich an Ihren IBM Ansprechpartner.
Syntaxanalyse für Niederländisch, Englisch, Französisch, Deutsch, Italienisch, Portugiesisch und Spanisch
Die folgenden Informationen gelten für alle unterstützten Dialekte von Deutsch, Englisch, Französisch, Italienisch, Niederländisch, Portugiesisch und Spanisch:
-
Zahlen werden in entsprechende Wörter umgewandelt.
Beispiele für die Umrechnung von Zahlen Sprache Ganzzahl Dezimalzahl Niederländisch 500
wird zuvijfhonderd
0,15
wird zunul komma vijftien
Englisch 500
wird zufive hundred
0.15
wird zuzero point fifteen
Französisch 500
wird zucinq cents
0,15
wird zuzéro virgule quinze
Deutsch 500
wird zufünfhundert
0,15
wird zunull punkt fünfzehn
Italienisch 500
wird zucinquecento
0,15
wird zuzero virgola quindici
Portugiesisch 500
wird zuquinhentos
0,15
wird zuzero ponto quinze
Spanisch 500
wird zuquinientos
0,15
wird zucero coma quince
-
Tokens, die bestimmte Symbole enthalten, werden in aussagefähige Zeichenfolgedarstellungen umgewandelt. Die Liste der Beispiele ist nicht vollständig. Der Service nimmt für andere Zeichen bei Bedarf ähnliche Anpassungen vor.
Sprache Ein Dollarzeichen und eine Zahl Ein Eurozeichen und eine Zahl Ein Prozentzeichen und eine Zahl Niederländisch $100
wird zuhonderd dollar
€100
wird zuhonderd euro
100%
wird zuhonderd procent
Englisch $100
wird zuone hundred dollars
€100
wird zuone hundred euros
100%
wird zuone hundred percent
Französisch $100
wird zucent dollars
€100
wird zucent euros
100%
wird zucent pour cent
Deutsch $100
und100$
werden`einhundert dollar` | `€100` und `100€` werden `einhundert euro` | `100%` wird zu `einhundert prozent` |
| Italienisch |
$100
wird zucento dollari
|€100
wird zucento euro
|100%
wird zucento per cento
| | Portugiesisch |$100
und100$
werdencem dólares
|€100
und100€
werdencem euros
|100%
wird zucem por cento
| | Spanisch |$100
und100$
werdencien dólares
|€100
und100€
werdencien euros
|100%
wird zucien por ciento
| -
Verarbeitung nicht alphanumerischer Zeichen sowie Interpunktions- und Sonderzeichen entsprechend dem Kontext. Beispiel: Der Service entfernt ein Dollarzeichen (
$
) oder ein Eurozeichen (€
), wenn danach keine Zahl folgt. Diese Verarbeitung erfolgt kontextabhängig und konsistent für alle unterstützten Sprachen. -
Ausdrücke, die in runde Klammern '
( )
', spitze Klammern '< >
', eckige Klammern '[ ]
' oder geschweifte Klammern '{ }
' eingeschlossen sind, werden ignoriert.
Parsing für Japanisch
Die folgenden Informationen gelten für Japanisch:
- Alle Zeichen werden in Zeichen mit voller Breite umgewandelt.
- Wandelt Zahlen in ihre entsprechenden Wörter um, z. B. wird
500
zu五百
und0.15
zu〇・一五
. - Token, die Symbole enthalten, werden nicht in entsprechende Zeichenketten umgewandelt, z. B. wird
100%
zu百%
. - Die Interpunktion wird nicht automatisch entfernt. IBM empfiehlt dringend, die Interpunktion zu entfernen, wenn Ihre Anwendung auf Transkription basiert und nicht auf Spracheingabe.
Parsing für Koreanisch
Die folgenden Informationen gelten für Koreanisch:
-
Wandelt Zahlen in ihre entsprechenden Wörter um, z. B. wird aus
10
십
. -
Entfernt die folgenden Interpunktions- und Sonderzeichen:
- ( ) * : . , ' "
. Für Koreanisch werden jedoch nicht alle Interpunktions- und Sonderzeichen entfernt, die für andere Sprachen entfernt werden. Beispiele:- Ein Punkt (
.
) wird nur entfernt, wenn er am Ende einer Eingabezeile steht. - Die Tilde (
~
) wird nicht entfernt. - Entfernt oder verarbeitet Unicode-Symbole mit breiten Zeichen nicht, z. B.
…
(Dreifachpunkt oder Auslassungspunkte).
IBM empfiehlt generell, Interpunktionszeichen, Sonderzeichen und Unicode-Breitzeichen zu entfernen, bevor eine Korpusdatei verarbeitet wird.
- Ein Punkt (
-
Ausdrücke, die in runde Klammern '
( )
', spitze Klammern '< >
', eckige Klammern '[ ]
' oder geschweifte Klammern '{ }
' eingeschlossen sind, werden weder entfernt noch ignoriert. -
Tokens, die bestimmte Symbole enthalten, werden in aussagefähige Zeichenfolgedarstellungen umgewandelt, wie in den folgenden Beispielen gezeigt:
24%
wird zu이십사퍼센트
.$10
wird zu십달러
.
Diese Liste ist nicht vollständig. Der Service nimmt für andere Zeichen bei Bedarf ähnliche Anpassungen vor.
-
Bei Ausdrücken, die aus lateinischen (englischen) Zeichen oder einer Mischung aus Hangul-Zeichen und lateinischen Zeichen bestehen, verwendet der Service die Ausdrücke genau so, wie sie in der Korpusdatei vorkommen.
Mit angepassten Wörtern für große Sprachmodelle und Modelle der nächsten Generation arbeiten
Mit den Methoden POST /v1/customizations/{customization_id}/words
und PUT /v1/customizations/{customization_id}/words/{word_name}
können Sie neue Wörter zu einem angepassten Modell hinzufügen. Diese Methoden auch verwendet
werden, um ein angepasstes Wort zu ändern oder zu erweitern.
Mit diesen Methoden können Sie beispielsweise einen Schreibfehler oder einen anderen Fehler korrigieren, der beim Hinzufügen eines Wortes in einem angepassten Modell auftritt. Wenn Sie ein vorhandenes Wort ändern, überschreiben die neuen Daten, die Sie bereitstellen, die vorhandene Definition des Wortes in der Wörterressource. Die Regeln zum Hinzufügen eines Wortes gelten auch für das Ändern eines vorhandenen Wortes.
Angepasste Wörter werden häufig aus Kopora hinzugefügt. Stellen Sie sicher, dass Sie die Zeichencodierung Ihrer Korpustextdateien kennen. Der Service behält die in den Textdateien verwendete Codierung bei. Beim Arbeiten mit angepassten Wörtern im angepassten Modell muss die gleiche Codierung verwendet werden. Weitere Informationen finden Sie unter Zeichencodierung für angepasste Wörter.
Verwendung des Felds 'sounds_like'
Das Feld sounds_like
gibt an, wie ein Wort von Sprechern in Audio ausgesprochen wird. Standardmäßig versucht der Service nicht automatisch, eine gleichlautende Aussprache für ein Wort zu generieren, für das Sie keine Aussprache
angeben. Sie können gleichlautende Aussprachen für Wörter hinzufügen, die keine haben. Nachdem Sie Wörter hinzugefügt oder geändert haben, müssen Sie die Wörter-Ressource prüfen, um sicherzustellen, dass die Definition jedes Worts vollständig
und gültig ist. Weitere Informationen finden Sie unter Wörterressource für große Sprachmodelle und Modelle der nächsten Generation validieren.
Sie können bis zu fünf Aussprachevarianten für ein Wort angeben, das unterschiedlich ausgesprochen werden kann. Es folgen einige mögliche Verwendungsmöglichkeiten des Felds:
-
Aussprachevarianten für Akronyme angeben. Das Akronym
NCAA
kann beispielsweise so ausgesprochen werden, wie es geschrieben wird, oder umgangssprachlich wie N C doppelt A Im folgenden Beispiel werden beide gleichlautenden Aussprachevarianten für das WortNCAA
hinzugefügt:IBM Cloud
curl -X PUT -u "apikey:{apikey}" \ --header "Content-Type: application/json" \ --data "{\"sounds_like\": [\"N C A A\", \"N C double A\"]}" \ "{url}/v1/customizations/{customization_id}/words/NCAA"
IBM Cloud Pak for Data IBM Software Hub
curl -X PUT \ --header "Authorization: Bearer {token}" \ --header "Content-Type: application/json" \ --data "{\"sounds_like\": [\"N C A A\", \"N C double A\"]}" \ "{url}/v1/customizations/{customization_id}/words/NCAA"
Weitere Informationen dazu, wie der Service Akronyme erkennt, finden Sie unter Zusätzliche Transkriptionsaufwände.
-
Fremdwörter verarbeiten. Beispiel: Das französische Wort
garçon
enthält ein Zeichen, das in der englischen Sprache nicht vorkommt. Sie können die gleich klingende Variantegaarson
angeben, indem Sieç
durchs
ersetzen, um dem Service mitzuteilen, wie das Wort in Englisch ausgesprochen würde.
Die folgenden Themen enthalten Richtlinien für die Angabe einer klanglichen Aussprache. Bei der Spracherkennung werden statistische Algorithmen für die Analyse von Audiodaten verwendet, d. h. durch bloßes Hinzufügen eines Wortes kann nicht
sichergestellt werden, dass das Wort vom Service mit hinreichender Genauigkeit transcodiert wird. Berücksichtigen Sie beim Hinzufügen auch die Aussprache des hinzugefügten Wortes. Verwenden Sie das Feld sounds_like
, um verschiedene
Aussprachevarianten für ein Wort anzugeben.
Informationen für die folgenden Sprachen sind noch nicht verfügbar: Arabisch, Chinesisch, Tschechisch, Hindi und Schwedisch. Wenn Sie diese Informationen für Ihr angepasstes Sprachmodell benötigen, wenden Sie sich an Ihren IBM Ansprechpartner.
Die nicht japanischen Modelle verwenden 'sounds_like' für die Zuordnung ('sounds_like '->' display_as '). Japanische Modelle verwenden Wort für Zuordnung ('Wort '->' display_as ').
Allgemeine Richtlinien für alle Sprachen
Beachten Sie die folgenden Richtlinien, wenn Sie eine gleichlautende Aussprachevariante für eine beliebige Sprache angeben:
- Verwenden Sie keine Interpunktionszeichen in gleichlautenden Aussprachevarianten. Verwenden Sie beispielsweise keine Punkte, Gedankenstriche, Unterstreichungszeichen, Kommas, Satzendezeichen und Sonderzeichen wie Dollar-und Euro-Zeichen, runde Klammern, eckige Klammern und geschweifte Klammern.
- Verwenden Sie alphabetische Zeichen, die für Ihre Sprache gültig sind. Für Englisch umfasst dies
a-z
undA-Z
. Bei anderen Sprachen können gültige Zeichen Buchstaben mit Akzent oder sprachspezifische Zeichen enthalten. - In Englisch: Ersetzen Sie äquivalente englische Buchstaben durch nicht englische Buchstaben oder Buchstaben mit Akzent. Beispiel:
s
fürç
,ny
fürñ
odere
fürè
- Verwenden Sie reale oder Kunstworte, die für schwer aussprechbare Wörter ausgesprochen werden können. Auf Englisch können Sie beispielsweise das gleichlautende
shuchesnie
für das WortSczcesny
verwenden. - Verwenden Sie die Schreibweise von Zahlen ohne Gedankenstriche. Verwenden Sie beispielsweise für die Zahl
75
seventy five
für Englisch,setenta y cinco
für Spanisch undsoixante quinze
für Französisch. - Verwenden Sie zum Aussprechen eines einzelnen Buchstabens den betreffenden Buchstaben, gefolgt von einem Leerzeichen. Beispiel:
N C A A
und nichtN. C. A. A.
,N.C.A.A.
oderNCAA
. - Sie können mehrere durch Leerzeichen getrennte Wörter einschließen.
- Bei den meisten Sprachen erzwingt der Service insgesamt maximal 40 Zeichen ohne führende oder nachgestellte Leerzeichen.
- Für Japanisch erzwingt der Service eine maximale Begrenzung von insgesamt 25 Zeichen ohne führende oder nachgestellte Leerzeichen. Wenn Sie ein angepasstes Wort hinzufügen oder gleich klingt, das diesen Grenzwert überschreitet, behandelt der Service das Wort automatisch so, als wäre es von einem Korpus hinzugefügt worden. Das Wort wird nicht als angepasstes Wort für das Modell angezeigt. Für das effektivste Training wird empfohlen, dass japanische benutzerdefinierte Wörter und Sounds nicht mehr als 20 Zeichen enthalten.
Richtlinien für Japanisch
Befolgen Sie diese Richtlinien, wenn Sie ein Geräusch für Japanisch angeben:
-
Verwenden Sie nur Katakana-Zeichen in voller Breite, indem Sie das
―
-Verlängerungssymbol (chou-on oder 長音 auf Japanisch) verwenden. Verwenden Sie keine Zeichen mit halber Breite. (Wenn Sie im Felddisplay_as
ein Zeichen mit halber Breite eingeben, wird es in Transkriptionsergebnissen als Zeichen mit halber Breite wiedergegeben.) -
Verwenden Sie die sogenannten "Yōon" (拗音, auf Japanisch) nur in den folgenden Silbenkontexten:
イェ
,ウィ
,ウェ
,ウォ
,キィ
,キャ
,キュ
,キョ
,ギャ
,ギュ
,ギョ
,クァ
,クィ
,クェ
,クォ
グァ
,グォ
,シィ
,シェ
,シャ
,シュ
,ショ
,ジィ
,ジェ
,ジャ
,ジュ
,ジョ
,スィ
,ズィ
,チェ
チャ
,チュ
,チョ
,ヂェ
,ヂャ
,ヂュ
,ヂョ
,ツァ
,ツィ
,ツェ
,ツォ
,ティ
,テュ
,ディ
,デャ
デュ
,デョ
,トゥ
,ドゥ
,ニェ
,ニャ
,ニュ
,ニョ
,ヒャ
,ヒュ
,ヒョ
,ビャ
,ビュ
,ビョ
,ピィ
ピャ
,ピュ
,ピョ
,ファ
,フィ
,フェ
,フォ
,フュ
,ミャ
,ミュ
,ミョ
,リィ
,リェ
,リャ
,リュ
リョ
,ヴァ
,ヴィ
,ヴェ
,ヴォ
,ヴュ
-
Verwenden Sie nach einem assimilierten Laut (soku-on oder 促音 auf Japanisch) nur die folgenden Silben:
バ
,ビ
,ブ
,ベ
,ボ
,チ
,チェ
,チャ
,チュ
,チョ
,ダ
,デ
,ディ
,ド
,ドゥ
,フ
ファ
,フィ
,フェ
,フォ
,ガ
,ギ
,グ
,ゲ
,ゴ
,ハ
,ヒ
,ヘ
,ホ
,ジ
,ジェ
,ジャ
ジュ
,ジョ
,カ
,キ
,ク
,ケ
,コ
,キャ
,キュ
,キョ
,パ
,ピ
,プ
,ペ
,ポ
,ピャ
ピュ
,ピョ
,サ
,ス
,セ
,ソ
,シ
,シェ
,シャ
,シュ
,ショ
,タ
,テ
,ト
,ツ
,ザ
ズ
,ゼ
,ゾ
-
Verwenden Sie
ン
nicht als erstes Zeichen eines Wortes. Verwenden Sie beispielsweiseウーント
anstelle vonンート
, da letztere E-Mail-Adresse ungültig ist. -
Die Zeichenfolge
ウー
ist in einigen linken Kontexten mehrdeutig. Verwenden Sie keine Zeichen (Silben), die mit dem Phonem/o/
enden, z. B.ロ
undト
. Verwenden Sie in solchen Fällenウウ
oder einfachウ
anstelle vonウー
. Verwenden Sie beispielsweiseロウウマン
oderロウマン
anstelle vonロウーマン
. -
Viele zusammengesetzte Wörter bestehen aus Präfix + Substantiv oder aus Substantiv + Suffix. Die Zeichenfolgen des Basismodells decken die meisten zusammengesetzten Wörter ab, die häufig auftreten (z. B.
長電話
und古新聞
), aber nicht die zusammengesetzten Wörter, die selten vorkommen. Wenn Ihr Korpus viele zusammengesetzte Wörter enthält, fügen Sie diese im ersten Anpassungsschritt jeweils als ein Wort hinzu. Zum Beispiel ist古鉛筆
in allgemeinen japanischen Texten nicht üblich; wenn Sie es häufig verwenden, fügen Sie es Ihrem benutzerdefinierten Modell hinzu, um die Transkriptionsgenauigkeit zu verbessern. -
Verwenden Sie keinen assimilierten Laut als abschließendes Element.
Richtlinien für Koreanisch
Befolgen Sie diese Richtlinien, wenn Sie ein Geräusch für Koreanisch angeben:
- Verwenden Sie koreanische Hangul-Zeichen, -Symbole und -Silben.
- Sie können auch die Zeichen aus dem lateinischen (englischen) Alphabet verwenden:
a-z
undA-Z
. - Verwenden Sie keine Zeichen oder Symbole, die in den oben angegebenen Gruppen nicht enthalten sind.
Verwendung des Felds 'display_as'
Im Feld display_as
wird angegeben, wie ein Wort in einer Aufzeichnung angezeigt wird. Standardmäßig legt der Service das Feld so fest, dass es der Schreibweise des angepassten Wortes entspricht. Das Feld ist für Fälle bestimmt,
in denen der Service eine Zeichenfolge anzeigen soll, die sich von der Schreibweise des Wortes unterscheidet. Sie können beispielsweise angeben, dass das Wort hhonors
als HHonors
angezeigt werden soll.
IBM Cloud
curl -X PUT -u "apikey:{apikey}" \
--header "Content-Type: application/json" \
--data "{\"display_as\": \"HHonors\"}" \
"{url}/v1/customizations/{customization_id}/words/hhonors"
IBM Cloud Pak for Data IBM Software Hub
curl -X PUT \
--header "Authorization: Bearer {token}" \
--header "Content-Type: application/json" \
--data "{\"display_as\": \"HHonors\"}" \
"{url}/v1/customizations/{customization_id}/words/hhonors"
Ein weiteres Beispiel: Sie können angeben, dass das Wort IBM
als IBM™
angezeigt werden soll.
IBM Cloud
curl -X PUT -u "apikey:{apikey}" \
--header "Content-Type: application/json" \
--data "{\"display_as\":\"IBM™\"}" \
"{url}/v1/customizations/{customization_id}/words/IBM"
IBM Cloud Pak for Data IBM Software Hub
curl -X PUT \
--header "Authorization: Bearer {token}" \
--header "Content-Type: application/json" \
--data "{\"display_as\":\"IBM™\"}" \
"{url}/v1/customizations/{customization_id}/words/IBM"
Die nicht japanischen Modelle verwenden 'sounds_like' für die Zuordnung ('sounds_like '->' display_as '). Japanische Modelle verwenden Wort für Zuordnung ('Wort '->' display_as ').
Interaktion mit intelligenter Formatierung und Zahlenschwärzung
Wenn Sie die Parameter smart_formatting
oder redaction
mit einer Erkennungsanforderung verwenden, sollten Sie berücksichtigen, dass der Service die intelligente Formatierung und das Schwärzen auf ein Wort anwendet,
bevor das Feld display_as
für das Wort berücksichtigt wird. Es kann hilfreich sein, mit den Ergebnissen zu experimentieren, um sicherzustellen, dass sich diese Funktionen nicht nachteilig auf die Darstellung Ihrer angepassten
Wörter auswirken. Gegebenenfalls kann es erforderlich werden, angepasste Wörter hinzufügen, um diese Auswirkungen zu berücksichtigen.
Angenommen, Sie fügen ein angepasstes Wort one
ein und geben im Feld display_as
den Wert one
ein. Die Funktion für intelligente Formatierung ändert das Wort one
in die Zahl 1
und der Wert aus dem Feld 'display-as' wird nicht angewendet. Um dieses Problem zu umgehen, können Sie ein angepasstes Wort für die Zahl 1
hinzufügen und denselben Wert aus dem Feld display_as
auf dieses Wort
anwenden.
Weitere Informationen zum Arbeiten mit diesen Funktionen finden Sie in den Abschnitten Intelligente Formatierung und Zahlenschwärzung.
Was passiert, wenn ich ein angepasstes Wort hinzufüge oder ändere?
Wie der Service auf eine Anforderung zum Hinzufügen oder Ändern eines angepassten Wortes reagiert, hängt von den Feldern und Werten ab, die Sie angeben. Es hängt auch davon ab, ob die Zeichenfolgen des Worts in den Zeichenfolgen des Basismodells vorhanden sind.
-
Lassen Sie die Felder
sounds_like
unddisplay_as
weg:- Der Service legt das Feld
display_as
auf den Wert des Feldsword
fest. Der Service versucht nicht, das Feldsounds_like
auf eine Aussprache des Wortes festzulegen.
- Der Service legt das Feld
-
Geben Sie nur das Feld
sounds_like
an:- Wenn das Feld
sounds_like
gültig ist, legt der Service den Wert des Feldssounds_like
auf den angegebenen Wert fest. Der Service legt auch das Felddisplay_as
auf den Wert des Feldsword
fest. - Wenn das Feld
sounds_like
ungültig ist:- Die Methode
POST /v1/customizations/{customization_id}/words
fügt ein Felderror
für das Wort zur Wörterressource des Modells hinzu. - Die Methode
PUT /v1/customizations/{customization_id}/words/{word_name}
schlägt mit einem Antwortcode 400 und einer Fehlernachricht fehl. Der Service fügt das Wort nicht zur Wörterressource hinzu.
- Die Methode
- Wenn das Feld
-
Geben Sie nur das Feld
display_as
an:- Der Service legt das Feld
display_as
auf den angegebenen Wert fest. Der Service versucht nicht, das Feldsounds_like
auf eine Aussprache des Wortes festzulegen.
- Der Service legt das Feld
-
Geben Sie die Felder
sounds_like
unddisplay_as
an:- Wenn das Feld
sounds_like
gültig ist, setzt der Service die Feldersounds_like
unddisplay_as
auf die angegebenen Werte. - Wenn das Feld
sounds_like
ungültig ist, antwortet der Service wie in dem Fall, in dem das Feldsounds_like
angegeben ist und das Felddisplay_as
nicht.
- Wenn das Feld
Zusätzliche Transkriptionsaufwände
Für benutzerdefinierte Sprachmodelle, die auf großen Sprachmodellen und Modellen der nächsten Generation basieren, unternimmt der Dienst zusätzliche Anstrengungen, um die effektivste Transkription zu gewährleisten:
-
Bei gleichlautenden Aussprachevarianten für angepasste Wörter verwendet der Service den reverseartigen Sound der Wörter sowie ihre Definition in einem angepassten Wort. Beispiel: Bei einem
sounds_like
-Feld vonI triple E
für das WortIEEE
verwendet der Service effektiv auch einen reverseartigen Sound vonIEEE
für das "Wort"I triple E
. Dies verbessert die Anwendung von gleichlautenden Aussprachevarianten für die Spracherkennung. (Beachten Sie, dass es Benutzern nicht möglich ist, angepasste Wörter zu erstellen, die Leerzeichen enthalten.) -
Für Akronyme, die aus Korpora analysiert oder als angepasste Wörter definiert werden, führt der Service zusätzliche Spracherkennungsmaßnahmen durch. Ein Akronym ist ein beliebiges Wort, das aus zwei oder mehr aufeinanderfolgenden Großbuchstaben besteht. Wenn das Akronym mindestens einen Vokal enthält, versucht der Service, das Akronym als eine Folge einzelner Zeichen und als ein ausgesprochenes Wort zu erkennen.
Das Akronym
NASA
kann beispielsweise als vier einzelne Buchstaben gelesen oder als Wort ausgesprochen werden, das wienassa
klingt. Der Service prüft während der Spracherkennung auf beide Varianten. Dies verbessert seine Fähigkeit, Akronyme korrekt in einem Transkript darzustellen.
Wörterressource für große Sprachmodelle und Modelle der nächsten Generation validieren
Stellen Sie insbesondere beim Hinzufügen eines Korpus zu einem angepassten Sprachmodell oder beim gleichzeitigen Hinzufügen mehrerer angepasster Wörter sicher, dass Folgendes überprüft wird:
- Suchen Sie nach Schreibfehlern und anderen Fehlern in Korpora. Besonders beim Hinzufügen von Korpora, die sehr umfangreich sein können, sind Fehler keine Seltenheit. Überprüfen Sie den Korpus besonders sorgfältig, bevor er zum Modell hinzugefügt wird.
- Suchen Sie nach Schreibfehlern und anderen Fehlern in angepassten Wörtern. Überprüfen Sie angepasste Wörter, die Sie direkt zu einem Modell hinzufügen möchten, besonders sorgfältig.
- Überprüfen Sie die gleich klingenden Aussprachevarianten. Der Service versucht, gleichlautende Aussprachevarianten für angepasste Wörter zu erstellen, für die keine Wörter angegeben sind. In den meisten Fällen reichen diese Aussprachevarianten aus. Aber der Service keine Aussprache für alle Wörter generieren. Daher müssen Sie die Definition des Worts überprüfen, um sicherzustellen, dass sie vollständig und gültig ist. Bei Wörtern, die über ungewöhnliche Schreibweisen verfügen oder schwer auszusprechen sind, sowie bei Akronymen und Fachbegriffen empfiehlt es sich jedoch, die Richtigkeit der Aussprachevarianten zu überprüfen.
Durch typografische Fehler kann ein angepasstes Modell unbeabsichtigt um nicht vorhandene Wörter erweitert werden. Gleiches gilt für falsch formatierte HTML-Tags, die in einer Korpusdatei verbleiben.
Mit den folgenden Methoden können Sie gegebenenfalls ein angepasstes Wort für ein angepasstes Modell korrigieren:
- Listen Sie alle Wörter aus einem angepassten Modell mithilfe der Methode
GET /v1/customizations/{customization_id}/words
auf oder fragen Sie ein einzelnes Wort mit der MethodeGET /v1/customizations/{customization_id}/words/{word_name}
ab. Weitere Informationen finden Sie unter Angepasste Wörter aus einem angepassten Sprachmodell auflisten. - Ändern Sie Wörter in einem angepassten Modell, um Fehler zu korrigieren oder alternative Anzeigeformen hinzufügen, mithilfe der Methode
POST /v1/customizations/{customization_id}/words
oderPUT /v1/customizations/{customization_id}/words/{word_name}
. Weitere Informationen finden Sie unter Mit angepassten Wörtern für große Sprachmodelle und Modelle der nächsten Generation arbeiten. - Löschen Sie nicht zugehörige Wörter, die irrtümlich eingefügt wurden (z. B. durch Schreibfehler oder andere Fehler), mithilfe der Methode
DELETE /v1/customizations/{customization_id}/words/{word_name}
. Weitere Informationen finden Sie im Abschnitt Wort aus einem angepassten Sprachmodell löschen.