Notas del release de Speech to Text para IBM Cloud Pak for Data

IBM Cloud Pak for Data

Se incluyeron las siguientes características y cambios para cada release y actualización de las instancias instaladas o locales de IBM Watson® Speech to Text para IBM Cloud Pak for Data. A menos que se indique lo contrario, todos los cambios son compatibles con releases anteriores y están disponibles de forma automática y transparente para todas las aplicaciones nuevas y existentes.

Para obtener información sobre las limitaciones conocidas del servicio, consulte Limitaciones conocidas.

Para obtener información sobre releases y actualizaciones del servicio para IBM Cloud, consulte Notas del release de Speech to Text for IBM Cloud.

30 de octubre de 2024 (Versión 4.8.7 )

Ya está disponible la versión 4.8.7: Speech to Text para IBM Cloud Pak for Data versión 4.8.7 ya está disponible. Para más información, consulte Watson Servicios de voz en IBM Cloud Pak for Data.

25 de septiembre de 2024 (Versión 5.0.3 )

Ya está disponible la versión 5.0.3: Speech to Text para IBM Cloud Pak for Data versión 5.0.3 ya está disponible. Para más información, consulte Watson Servicios de voz en IBM Cloud Pak for Data.

28 de agosto de 2024 (Versión 4.8.6 )

Ya está disponible la versión 4.8.6: Speech to Text para IBM Cloud Pak for Data versión 4.8.6 ya está disponible. Para más información, consulte Watson Servicios de voz en IBM Cloud Pak for Data.

28 de agosto de 2024 (Versión 5.0.2 )

Ya está disponible la versión 5.0.2: Speech to Text para IBM Cloud Pak for Data versión 5.0.2 ya está disponible. Para más información, consulte Watson Servicios de voz en IBM Cloud Pak for Data.

31 de julio de 2024 (Versión 5.0.1 )

Ya está disponible la versión 5.0.1: Speech to Text para IBM Cloud Pak for Data versión 5.0.1 ya está disponible. Para más información, consulte Watson Servicios de voz en IBM Cloud Pak for Data.

19 de junio de 2024 (Versión 5.0.0 )

Ya está disponible la versión 5.0.0: Speech to Text para IBM Cloud Pak for Data versión 5.0.0 ya está disponible. Para más información, consulte Watson Servicios de voz en IBM Cloud Pak for Data.

24 de abril de 2024 (Versión 4.8.5 )

Ya está disponible la versión 4.8.5: Speech to Text para IBM Cloud Pak for Data versión 4.8.5 ya está disponible. Para más información, consulte Watson Servicios de voz en IBM Cloud Pak for Data.

27 de marzo de 2024 (Versión 4.8.4 )

Ya está disponible la versión 4.8.4: Speech to Text para IBM Cloud Pak for Data versión 4.8.4 ya está disponible. Para más información, consulte Watson Servicios de voz en IBM Cloud Pak for Data.

28 de febrero de 2024 (Versión 4.8.3 )

Ya está disponible la versión 4.8.3: Speech to Text para IBM Cloud Pak for Data versión 4.8.3 ya está disponible. Para más información, consulte Watson Servicios de voz en IBM Cloud Pak for Data.

31 de enero de 2024 (Versión 4.8.2 )

Ya está disponible la versión 4.8.2: Speech to Text para IBM Cloud Pak for Data versión 4.8.2 ya está disponible. Para más información, consulte Watson Servicios de voz en IBM Cloud Pak for Data.

30 de noviembre de 2023 (Versión 4.8.0 )

Ya está disponible la versión 4.8.0: Speech to Text para IBM Cloud Pak for Data versión 4.8.0 ya está disponible. Para más información, consulte Watson Servicios de voz en IBM Cloud Pak for Data.

27 de septiembre de 2023 (Versión 4.7.3 )

Ya está disponible la versión 4.7.3: Speech to Text para IBM Cloud Pak for Data versión 4.7.3 ya está disponible. Para más información, consulte Watson Servicios de voz en IBM Cloud Pak for Data.

28 de julio de 2023 (Versión 4.7.1 )

Ya está disponible la versión 4.7.1: Speech to Text para IBM Cloud Pak for Data versión 4.7.1 ya está disponible. Para más información, consulte Watson Servicios de voz en IBM Cloud Pak for Data.

9 de junio de 2023 (Versión 4.7.0 )

Ya está disponible la versión 4.7.0: Speech to Text para IBM Cloud Pak for Data versión 4.7.0 ya está disponible. Para más información, consulte Watson Servicios de voz en IBM Cloud Pak for Data.

2 de mayo de 2023 (Versión 4.6.5)

Ya está disponible la versión 4.6.5

Speech to Text para IBM Cloud Pak for Data versión 4.6.5 ya está disponible. Esta versión es compatible con IBM Cloud Pak for Data versión 4.6.x y Red Hat OpenShift versiones 4.10 y 4.12. Para más información, consulte Watson Servicios de voz en IBM Cloud Pak for Data.

Nuevo modelo japonés de telefonía de nueva generación

El servicio ofrece ahora un modelo de telefonía de nueva generación para japoneses: ja-JP_Telephony. El nuevo modelo soporta la baja latencia y está a disposición general. También es compatible con las gramáticas y la personalización del modelo de idioma. Para más información sobre los modelos de nueva generación y baja latencia, consulte:

Personalización mejorada del modelo de idioma para modelos en inglés y japonés de próxima generación

El servicio ahora proporciona una personalización mejorada del modelo de idioma para los modelos en inglés y japonés de próxima generación:

en-AU_Multimedia
en-AU_Telephony
en-IN_Telephony
en-GB_Multimedia
en-GB_Telephony
en-US_Multimedia
en-US_Telephony
ja-JP_Multimedia
ja-JP_Telephony

Mejoras visibles en los modelos: la nueva tecnología mejora el comportamiento predeterminado de los nuevos modelos en inglés y japonés. Entre otros cambios, la nueva tecnología optimiza el comportamiento predeterminado para los siguientes parámetros:

El customization_weight predeterminado para los modelos personalizados que se basan en las nuevas versiones de estos modelos cambia de 0.2 a 0.1.
La dirección character_insertion_bias por defecto para los modelos personalizados que se basan en las nuevas versiones de estos modelos sigue siendo 0.0, pero los modelos han cambiado, lo que hace que el parámetro para el reconocimiento de voz sea menos necesario.

Actualización a los nuevos modelos: Para aprovechar la tecnología mejorada, debe actualizar los modelos de lenguaje personalizados que se basan en los nuevos modelos. Para pasar a la nueva versión de uno de estos modelos básicos:

Cambie el modelo personalizado añadiendo o modificando una palabra, corpus o gramática personalizada que contenga el modelo. Cualquier cambio que realice mueve el modelo al estado ready.
Utilice el método POST /v1/customizations/{customization_id}/train para volver a entrenar el modelo. Volver a entrenar actualiza el modelo personalizado a la nueva tecnología y mueve el modelo al estado available.

Problema conocido: Actualmente, no se puede utilizar el método POST /v1/customizations/{customization_id}/upgrade_model para actualizar un modelo personalizado a uno de los nuevos modelos base. Este problema se abordará en una próxima versión.

Utilización de los nuevos modelos: Después de la actualización al nuevo modelo base, se le recomienda que evalúe el rendimiento del modelo personalizado actualizado prestando especial atención a los parámetros customization_weight y character_insertion_bias para el reconocimiento de voz. Cuando vuelva a entrenar el modelo personalizado:

El modelo personalizado utiliza el nuevo customization_weight predeterminado de 0.1 para el modelo personalizado. Se elimina un customization_weight no predeterminado que estaba asociado a su modelo personalizado.
Es posible que el modelo personalizado ya no requiera el uso del parámetro character_insertion_bias para un reconocimiento óptimo del habla.

Las mejoras en la personalización del modelo de lenguaje hacen que estos parámetros sean menos importantes para el reconocimiento de voz de alta calidad:

Si utiliza los valores predeterminados para estos parámetros, continúe haciéndolo después de la actualización. Los valores por defecto seguirán ofreciendo los mejores resultados para el reconocimiento de voz.
Si especifica valores no predeterminados para estos parámetros, experimente con los valores predeterminados tras la actualización. El modelo personalizado puede funcionar bien para el reconocimiento de voz con los valores predeterminados.

Si cree que el uso de valores diferentes para estos parámetros puede mejorar el reconocimiento de voz con el modelo personalizado, experimente con cambios incrementales para determinar si los parámetros son necesarios para mejorar el reconocimiento de voz.

Nota: actualmente, las mejoras en la personalización de los modelos lingüísticos sólo se aplican a los modelos personalizados basados en los modelos lingüísticos básicos en inglés o japonés de nueva generación mencionados anteriormente. Con el tiempo, las mejoras estarán disponibles para otros modelos de lenguaje de próxima generación.

Más información: Para obtener más información sobre la actualización y sobre el reconocimiento de voz con estos parámetros, consulte:

Nueva variable de entorno para el recurso personalizado de servicios Speech

La documentación ahora incluye instrucciones para crear una variable de entorno denominada ${CUSTOM_RESOURCE_SPEECH}. Añada la nueva variable al script cpd_vars.sh y cree el origen del script para utilizar la variable en el entorno. Para obtener más información, consulte Información que necesita para completar esta tarea en Instalación de servicios de voz de Watson, o consulte cualquiera de los temas de actualización para los servicios de voz.

Arreglo de defectos: Los modelos de telefonía sueca e italiano multimedia ya están disponibles

Arreglo de defectos: Los modelos de telefonía sueca (sv-SE_Telephony) y multimedia italiana (it-IT_Multimedia) están ahora disponibles para su instalación. Anteriormente, no estaban disponibles.

Arreglo de defectos: Tiempo de entrenamiento mejorado para modelos de lenguaje personalizado de próxima generación

Arreglo de defectos: El tiempo de entrenamiento para los modelos de lenguaje personalizado de próxima generación ahora ha mejorado significativamente. Anteriormente, el tiempo de entrenamiento tardaba mucho más de lo necesario, como se informó para el entrenamiento de modelos de lenguaje personalizado japonés. El problema se ha corregido mediante un arreglo interno.

Arreglo de defecto: los archivos de gramática ahora manejan series de dígitos correctamente

Arreglo de defectos: cuando se utilizan gramáticas, el servicio ahora maneja correctamente series más largas de dígitos. Anteriormente, no se podía completar el reconocimiento o devolver resultados incorrectos.

Arreglo de defectos: los archivos de gramática generados dinámicamente ahora funcionan correctamente

Arreglo de defectos: Los archivos de gramática generados dinámicamente ahora funcionan correctamente. Anteriormente, los archivos de gramática dinámica podían provocar anomalías internas, tal como se notificaba para la integración de Speech to Text con IBM® watsonx™ Assistant. El problema se ha corregido mediante un arreglo interno.

Arreglo de defectos: el formato inteligente para las fechas en inglés de EE.UU. ahora es correcto

Arreglo de defectos: el formato inteligente ahora incluye correctamente los días de la semana y las fechas en las que ambos están presentes en el audio hablado, por ejemplo, Tuesday February 28. Anteriormente, en algunos casos se omitía el día de la semana y la fecha se presentaba de forma incorrecta. El formateo inteligente es una funcionalidad beta.

Arreglo de defectos: actualizar documentación para palabras de vacilación de voz para modelos de próxima generación

Corrección de defectos: Se actualiza la documentación de las palabras de vacilación del habla para los modelos de nueva generación. Se proporcionan más detalles sobre las palabras de vacilación en inglés y japonés de Estados Unidos. Los modelos de próxima generación incluyen las palabras de duda reales en los resultados de transcripción, a diferencia de los modelos de generación anterior, que incluyen sólo marcadores de duda. Para obtener más información, consulte Titubeos y marcadores de duda.

Vulnerabilidades de seguridad abordadas

Se han corregido las siguientes vulnerabilidades de seguridad:

29 de marzo de 2023 (Versión 4.6.4)

Ya está disponible la versión 4.6.4

Speech to Text para IBM Cloud Pak for Data versión 4.6.4 ya está disponible. Esta versión es compatible con IBM Cloud Pak for Data versión 4.6.x y Red Hat OpenShift versiones 4.10 y 4.12. Para más información, consulte Watson Servicios de voz en IBM Cloud Pak for Data.

Importante: Haz una copia de seguridad de tus datos antes de actualizar a la versión 4.6.3 o 4.6.4

Importante: Antes de actualizar a los servicios de Watson Speech versión 4.6.3 o 4.6.4, debe hacer una copia de seguridad de sus datos. Conserve la copia de seguridad en una ubicación segura. Para obtener más información sobre cómo realizar copias de seguridad de los datos de los servicios Watson Speech, consulte Realizar copias de seguridad y restaurar los datos de los servicios Watson Speech en Administrar los servicios Watson Speech. Este tema también incluye información sobre la restauración de los datos si es necesario.

Problema conocido: La telefonía sueca y los modelos multimedia italianos aún no están disponibles

Problemas conocidos: Los modelos de telefonía sueco ( sv-SE_Telephony ) y multimedia italiano ( it-IT_Multimedia ) aún no están disponibles. Están disponibles desde la versión 4.6.5.

Arreglo de defectos: Ahora puede cambiar los modelos y voces instalados con las opciones de instalación avanzadas

Arreglo de defectos: durante la instalación, ahora puede especificar diferentes modelos o voces con las opciones de instalación avanzadas de la interfaz de línea de mandatos. Anteriormente, el servicio siempre instalaba los modelos y voces predeterminados. La limitación sigue aplicándose para Watson Speech Services versiones 4.6.0, 4.6.2y 4.6.3. Para obtener información sobre la instalación de modelos y voces, consulte Especificación de opciones de instalación adicionales en Instalación de servicios de Watson Speech.

Establecimiento de tiempos de espera excedidos del equilibrador de carga

Los servicios de voz de Watson requieren que cambie los valores de tiempo de espera del equilibrador de carga para el servidor y el cliente a 300 segundos. Estos valores garantizan que las solicitudes de reconocimiento de voz de larga ejecución, aquellas con audio largo o difícil, tengan tiempo suficiente para completarse. Para obtener más información, consulte Información que necesita para completar esta tarea en Instalación de servicios de voz de Watson.

Vulnerabilidades de seguridad abordadas

Se han corregido las siguientes vulnerabilidades de seguridad:

23 de febrero de 2023 (Versión 4.6.3)

Ya está disponible la versión 4.6.3

Speech to Text para IBM Cloud Pak for Data versión 4.6.3 ya está disponible. Esta versión es compatible con IBM Cloud Pak for Data versión 4.6.x y Red Hat OpenShift versión 4.10. Red Hat OpenShift versión 4.8 ya no está soportado. Para más información, consulte Watson Servicios de voz en IBM Cloud Pak for Data.

Importante: Todos los modelos de generación anterior están en desuso y llegarán al final del servicio el 31 de julio de 2023

Importante: Todos los modelos de generación anterior están en desuso y llegarán al final del servicio a partir del 31 de julio de 2023. En esa fecha, todos los modelos de generación anterior se eliminarán del servicio y de la documentación. La fecha de desuso anterior era el 3 de marzo de 2023. La nueva fecha permite a los usuarios más tiempo para migrar a los modelos de próxima generación adecuados. Pero los usuarios deben migrar al modelo de próxima generación equivalente antes del 31 de julio de 2023.

La mayoría de los modelos de generación anterior quedaron en desuso el 15 de marzo de 2022. Anteriormente, los modelos árabe y japonés no estaban en desuso. Ahora la característica en desuso se aplica a todos los modelos de generación anterior.

Para obtener más información sobre los modelos de próxima generación a los que puede migrar desde cada uno de los modelos en desuso, consulte Idiomas y modelos de la generación anterior
Para obtener más información sobre la migración de modelos de la generación anterior a modelos de la próxima generación, consulte Migración a modelos de próxima generación.
Para obtener más información sobre todos los modelos de próxima generación, consulte Idiomas y modelos de próxima generación

Nota: Cuando se retire del servicio el modelo en-US_BroadbandModel de la generación anterior, el modelo en-US_Multimedia de la generación siguiente se convertirá en el modelo predeterminado para las solicitudes de reconocimiento de voz.

Problema conocido: No puede cambiar los modelos y voces instalados con las opciones de instalación avanzadas

Problema conocido: Actualmente no puede especificar diferentes modelos o voces con las opciones de instalación avanzadas. El servicio siempre instala los modelos y voces predeterminados. Para obtener información sobre cómo cambiar los modelos después de la instalación, consulte Actualización de modelos y voces para los servicios de voz de Watson en el tema Administración de Watson Servicios de voz en IBM Cloud Pak for Data.

Problema conocido: la actualización a la versión 4.6.3 puede no completarse

Problema conocido: Al actualizar a la versión 4.6.3, el trabajo de copia de seguridad MinIO no se puede suprimir al finalizar. Si esto sucede, la solución es suprimir el trabajo, después del cual la actualización continúa normalmente. Realice los siguientes pasos para resolver el problema.

Para determinar si el trabajo de copia de seguridad MinIO permanece sin suprimir, emita el mandato siguiente:
```
oc get job --namespace {${PROJECT_CPD_INSTANCE} | grep speech-cr-ibm-minio-backup
```
El trabajo MinIO que no se suprime se identifica mediante una entrada con el formato siguiente:
```
speech-cr-ibm-minio-backup   1/1   3m25s   1d
```
Para suprimir el trabajo de copia de seguridad MinIO, emita el mandato siguiente:
```
oc delete job speech-cr-ibm-minio-backup --namespace ${PROJECT_CPD_INSTANCE}
```

Una vez suprimido el trabajo de copia de seguridad, la actualización continúa y se completa.

Arreglo de defecto: Actualizar modelo de telefonía de próxima generación francés canadiense (se requiere actualización)

Arreglo de defectos: el modelo de telefonía de próxima generación de Canadá, fr-CA_Telephony, se ha actualizado para abordar una incoherencia interna que podría provocar un error durante el reconocimiento de voz. Es necesario actualizar los modelos personalizados que se basan en el modelo fr-CA_Telephony. Para obtener más información sobre la actualización de modelos personalizados, consulte

Arreglo de defectos: El modelo multimedia portugués de la próxima generación ya está disponible

Arreglo de defectos: El modelo multimedia en portugués de Brasil de próxima generación está ahora disponible para Speech to Text para IBM Cloud Pak for Data. Anteriormente, el modelo no estaba disponible.

La adición de palabras directamente a modelos personalizados que se basan en modelos de próxima generación aumenta el tiempo de entrenamiento

La adición de palabras personalizadas directamente a un modelo personalizado que se basa en un modelo de próxima generación hace que el entrenamiento de un modelo tarde unos minutos más de lo que lo haría de otro modo. Si está entrenando un modelo con palabras personalizadas que ha añadido utilizando el método POST /v1/customizations/{customization_id}/words o PUT /v1/customizations/{customization_id}/words/{word_name}, espere unos minutos de tiempo de entrenamiento adicional para el modelo. Para obtener más información, consulte

Información adicional sobre cómo trabajar con instancias de servicio

La documentación ahora incluye información sobre la creación de una instancia de servicio con la interfaz de línea de mandatos (cpl-cli) y sobre la gestión de instancias de servicio. Para obtener más información, consulte los temas siguientes de Watson Servicios de voz en IBM Cloud Pak for Data:

Creación de una instancia de servicios de voz de Watson en Configuración posterior a la instalación
Gestión de las instancias de servicios de voz de Watson en Administración

Vulnerabilidad de seguridad corregida

Se ha corregido la siguiente vulnerabilidad de seguridad:

Boletín de seguridad: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data es vulnerable a la denegación de servicio en Pypa Setuptools(CVE-2022-40897)

30 de enero de 2023 (Versión 4.6.2)

Ya está disponible la versión 4.6.2

Speech to Text para IBM Cloud Pak for Data versión 4.6.2 ya está disponible. Esta versión es compatible con IBM Cloud Pak for Data versión 4.6.x y Red Hat OpenShift versiones 4.8 y 4.10. Para más información, consulte Watson Servicios de voz en IBM Cloud Pak for Data.

El recurso personalizado ahora incluye una nueva propiedad fileStorageClass

El recurso personalizado para los servicios de voz de Watson ahora incluye una propiedad fileStorageClass además de la propiedad blockStorageClass existente. Las clases de almacenamiento de bloques y de archivos se especifican al instalar o actualizar un servicio. Durante la actualización desde una versión anterior, la nueva propiedad se añade automáticamente al recurso personalizado mediante la opción --file_storage_class en el mandato cli manage apply-cr.

Para obtener más información sobre las clases de almacenamiento de bloques y archivos disponibles que utiliza con cada una de las soluciones de almacenamiento soportadas, consulte la tabla de Requisitos de almacenamiento en Información que necesita para completar esta tarea en la página "Instalación de servicios de voz de Watson " en Watson Servicios de voz en IBM Cloud Pak for Data.

Información adicional sobre el suministro de una instancia de servicio

La documentación ahora incluye información sobre la creación de una instancia de servicio mediante programación. También incluye ejemplos de listado de instancias de servicio y supresión de una instancia de servicio. Para obtener más información, consulte Creación de una instancia de servicios de voz de Watson en la documentación de Configuración posterior a la instalación en Watson Servicios de voz en IBM Cloud Pak for Data.

El cifrado del lado del servidor está habilitado para el almacén de datos MinIO

Los servicios de voz ahora han habilitado el cifrado del lado del servidor para el almacenamiento de objetos en el almacén de datos MinIO. No es necesaria ninguna acción por su parte.

Cambiar a webhooks de auditoría

Los servicios de voz han eliminado ahora la dependencia de webhook de auditoría. Los servicios ahora escriben sucesos de auditoría directamente en el servidor. Después de actualizar a la versión 4.6.2, es posible que algunos recursos de webhook permanezcan hasta que todos los servicios puedan eliminar la dependencia. Los recursos restantes se eliminarán en un release futuro. No es necesaria ninguna acción por su parte.

Nuevo modelo multimedia holandés de próxima generación

El servicio ofrece ahora un modelo multimedia de nueva generación para el neerlandés de los Países Bajos: nl-NL_Multimedia. El nuevo modelo soporta la baja latencia y está a disposición general. También es compatible con las gramáticas y la personalización del modelo de idioma. Para más información sobre los modelos de nueva generación y baja latencia, consulte

Nuevo modelo sueco de telefonía de nueva generación

El servicio ofrece ahora un modelo de telefonía de nueva generación para suecos: sv-SE_Telephony. El nuevo modelo soporta la baja latencia y está a disposición general. También es compatible con las gramáticas y la personalización del modelo de idioma. Para más información sobre los modelos de nueva generación y baja latencia, consulte

Actualizaciones de los modelos ingleses de telefonía de nueva generación

Los modelos ingleses de telefonía de nueva generación se han actualizado para mejorar el reconocimiento de voz:

en-AU_Telephony
en-GB_Telephony
en-IN_Telephony
en-US_Telephony

Todos estos modelos siguen soportando una baja latencia. No es necesario actualizar modelos personalizados basados en estos modelos. Para obtener más información sobre todos los modelos de próxima generación disponibles, consulte Idiomas y modelos de próxima generación.

El parámetro max_alternatives ahora está disponible para su uso con modelos de próxima generación

El parámetro max_alternatives ahora está disponible para su uso con todos los modelos de próxima generación. En general, este parámetro está disponible para todos los modelos de nueva generación. Para obtener más información, consulte Número máximo de alternativas.

Arreglo de defecto: permitir el uso de los parámetros max_alternatives y end_of_phrase_silence_time con modelos de próxima generación

Arreglo de defectos: cuando se utilizan los parámetros max_alternatives y end_of_phrase_silence_time en la misma solicitud con modelos de próxima generación, el servicio ahora devuelve varias transcripciones alternativas respetando también el intervalo de pausa indicado. Anteriormente, el uso de los dos parámetros en una sola solicitud generaba una anomalía. (El uso del parámetro max_alternatives con modelos de próxima generación estaba disponible anteriormente como una característica experimental para un número limitado de clientes.)

Arreglo de defectos: actualizar al modelo multimedia de próxima generación en japonés (se requiere actualización)

Arreglo de defectos: El modelo multimedia de próxima generación en japonés, ja-JP_Multimedia, se ha actualizado para abordar una incoherencia interna que podría provocar un error durante el reconocimiento de voz con baja latencia. Es necesario actualizar los modelos personalizados que se basan en el modelo ja-JP_Multimedia. Para obtener más información sobre la actualización de modelos personalizados, consulte

Arreglo de defectos: añadir directrices de documentación para crear suenes-me gusta en japonés basándose en modelos de próxima generación

Arreglo de defectos: en sonidos-me gusta para modelos de lenguaje personalizado en japonés que se basan en modelos de próxima generación, la secuencia de caracteres ウー es ambigua en algunos contextos de la izquierda. No utilice caracteres (sílabas) que terminen con el fonema /o/, como por ejemplo ロ y ト. En estos casos, utilice ウウ o simplemente ウ en lugar de ウー. Por ejemplo, utilice ロウウマン o ロウマン en lugar de ロウーマン. Para obtener más información, consulte Directrices para japonés.

Arreglo de defectos: uso correcto del campo display_as en los resultados de la transcripción

Arreglo de defectos: para la personalización del modelo de lenguaje con modelos de próxima generación, el valor del campo display_as para una palabra personalizada aparece ahora en todas las transcripciones. Anteriormente, el valor del campo word a veces aparecía en los resultados de la transcripción.

Vulnerabilidades de seguridad abordadas

Se han corregido las siguientes vulnerabilidades de seguridad:

30 de noviembre de 2022 (Versión 4.6.0)

Ya está disponible la versión 4.6.0

Speech to Text para IBM Cloud Pak for Data versión 4.6.0 ya está disponible. Esta versión es compatible con IBM Cloud Pak for Data versión 4.6.x y Red Hat OpenShift versiones 4.8 y 4.10. Para más información, consulte Watson Servicios de voz en IBM Cloud Pak for Data.

Amazon Web Services (AWS) ahora está soportado

Watson Los servicios de voz para IBM Cloud Pak for Data ahora están soportados en Amazon Web Services™ (AWS™). Los servicios dan soporte a Amazon Elastic Block Store, que se especifica estableciendo la propiedad blockStorageClass del recurso personalizado de servicios Speech en gp2-csi o gp3-csi.

Ahora se da soporte a las nuevas clases de almacenamiento

Watson Los servicios de voz para IBM Cloud Pak for Data ahora dan soporte a dos clases de almacenamiento adicionales:

IBM Cloud Block Storage (ibmc-block-gold)
NetApp Trident (ontap-nas)

Especifique la clase de almacenamiento con la propiedad blockStorageClass del recurso personalizado de servicios Speech. Para obtener más información sobre todas las clases de almacenamiento soportadas, consulte los temas siguientes en Watson Servicios de voz en IBM Cloud Pak for Data:

Antes de empezar en Instalación de servicios de voz de Watson
Especificación de una clase de almacenamiento en Utilización del recurso personalizado de Watson Speech Services

Problema conocido: algunos pods de servicios de voz de Watson no tienen anotaciones que se utilicen para la planificación

Problema conocido: A algunos pods de servicios de voz de Watson les falta la anotación cloudpakInstanceId. Si utiliza el servicio de planificación IBM Cloud Pak for Data, los pods de servicios de voz de Watson sin la anotación cloudpakInstanceId se

Planificado por el planificador de Kubernetes predeterminado en lugar del servicio de planificación
No incluido en la aplicación de la cuota

La supervisión del almacén de datos PostgreSQL ya está disponible

Ahora puede habilitar la supervisión del almacén de datos PostgreSQL para recibir actualizaciones sobre su uso y estado por parte de los servicios de voz de Watson. Los sucesos los puede consumir el software de supervisión Prometheus o cualquier aplicación que utilice para la supervisión. Al habilitar la supervisión para proyectos definidos por el usuario además de la supervisión de plataforma predeterminada, puede supervisar sus propios proyectos con la pila de supervisión de Red Hat® OpenShift® Container Platform. Esta prestación incluye una propiedad adicional, spec.global.datastores.postgressql.enablePodMonitor, en el recurso personalizado de servicios de voz.

Para obtener más información, consulte el tema Supervisión del almacén de datos de PostgreSQL para servicios de Watson Speech en la sección Administración de Watson Servicios de voz en IBM Cloud Pak for Data.

Arreglo de defecto: el almacén de datos PostgreSQL ya no está instalado si solo están habilitados los microservicios de tiempo de ejecución

Arreglo de defectos: el almacén de datos PostgreSQL ya no se instala si sólo están habilitados los microservicios de tiempo de ejecución. Ahora el almacén de datos sólo se instala si se ha instalado al menos uno de los microservicios sttAsync, sttCustomization o ttsCustomization. PostgreSQL no se desinstala si en una fecha posterior estos microservicios están inhabilitados.

Antes de la versión 4.6.0, PostgreSQL siempre se instalaba con los servicios de voz. Si es un cliente existente que solo ha utilizado los microservicios de tiempo de ejecución de los servicios de voz anteriores a la versión 4.6.0, PostgreSQL permanece instalado pero no se utiliza. En este caso, la instalación de PostgreSQL persiste entre actualizaciones.

El almacén de datos MinIO siempre se instala porque los microservicios de tiempo de ejecución dependen de él. El almacén de datos de RabbitMQ sólo se instala si está instalado el microservicio de sttAsync.

Para obtener más información, consulte Propiedades de almacén de datos en Utilización del recurso personalizado de servicios de voz de Watson en Watson Servicios de voz en IBM Cloud Pak for Data.

Arreglo de defecto: la creación de una política de red ya no es necesaria para que el operador PostgreSQL supervise sus operandos

Arreglo de defectos: Para la versión 4.6.0, no es necesario crear una política de red para permitir que el operador PostgreSQL supervise sus operandos, tal como se describe en la actualización del servicio 10 de noviembre de 2022(Versiones 4.0.x y 4.5.x). A partir de la versión 4.6.0, el servicio maneja esta situación automáticamente.

Arreglo de defectos: algunos modelos de próxima generación se han actualizado para mejorar el tiempo de respuesta de baja latencia

Arreglo de defectos: Los siguientes modelos de próxima generación se han actualizado para mejorar su tiempo de respuesta cuando se utiliza el parámetro low_latency :

en-IN_Telephony
hi-IN_Telephony
it-IT_Multimedia
nl-NL_Telephony

Anteriormente, estos modelos no devolvían los resultados de reconocimiento tan rápidamente como se esperaba cuando se utilizaba el parámetro low_latency. No es necesario actualizar modelos personalizados basados en estos modelos. Para obtener más información sobre todos los modelos de próxima generación disponibles, consulte Idiomas y modelos de próxima generación.

Arreglo de defectos: Mejorar la documentación de denominación de modelos personalizados

Arreglo de defectos: la documentación ahora proporciona reglas detalladas para denominar modelos de lenguaje personalizado y modelos acústicos personalizados. Para obtener más información, consulte

Vulnerabilidades de seguridad abordadas

Se han corregido las siguientes vulnerabilidades de seguridad:

10 de noviembre de 2022 (Versiones 4.0.x y 4.5.x)

Problema conocido: se ha actualizado la política de red necesaria para el operador PostgreSQL

Problema conocido: Para servicios Speech versión 4.0.x (sin incluir la versión 4.0.0) y 4.5.x, si el operador PostgreSQL y los servicios Speech están instalados en distintos espacios de nombres, el operador PostgreSQL no puede supervisar los operandos PostgreSQL para los servicios Speech. El operador no puede supervisar los operandos mediante la política de red que está en vigor para los servicios de voz.

Este problema no impide que el clúster PostgreSQL funcione correctamente. El clúster permanece activo y totalmente funcional. Sin embargo, el operador no puede actualizar los operandos al actualizar a nuevas versiones de los servicios de voz.

La solución para el problema es crear una política de red adicional para el operador PostgreSQL, tal como se muestra en los pasos siguientes. Puede realizar los pasos independientemente de si el operador PostgreSQL está instalado en el mismo espacio de nombres que los servicios Speech o en un espacio de nombres diferente.

Inicie sesión como administrador del proyecto Red Hat® OpenShift® donde están instalados los servicios de Speech.
Especifique el mandato siguiente para actualizar la política de red para los servicios de voz:
```
cat << EOF | oc apply -f -
apiVersion: networking.k8s.io/v1
kind: NetworkPolicy
metadata:
  labels:
    app.kubernetes.io/component: stt
    app.kubernetes.io/instance: {{ <custom-resource-name> }}
    app.kubernetes.io/name: speech-to-text
    release: {{ <custom-resource-name> }}
  name: <custom-resource-name>-postgres-network-policy
  namespace: {{ <cpd-instance-namespace> }}
spec:
  ingress:
  - from:
    - namespaceSelector: {}
      podSelector:
        matchLabels:
          app.kubernetes.io/name: cloud-native-postgresql
EOF
```
donde
- <custom-resource-name> es el nombre del recurso personalizado Speech services. El nombre recomendado para la versión 4.0.x es speech-prod-cr; el nombre recomendado para la versión 4.5.x es speech-cr.
- <cpd-instance-name> es el nombre del proyecto (espacio de nombres) en el que están instalados los servicios de voz. La documentación utiliza la variable de entorno ${PROJECT_CPD_INSTANCE} para identificar el espacio de nombres.
Para verificar que la política de red actualizada permite al operador supervisar los operandos y que el clúster PostgreSQL está en buen estado, especifique el mandato siguiente, donde <custom-resource-name> y <cpd-instance-name> son los valores que ha utilizado en el paso anterior:
```
oc -get cluster {{ <custom-resource-name> }}-postgres -n {{ <cpd-instance-namespace> }}
```
Si el clúster PostgreSQL funciona correctamente, el mandato genera una salida similar a la siguiente:
```
NAME                 AGE   INSTANCES   READY   STATUS                     PRIMARY
speech-cr-postgres   14d   3           3       Cluster in healthy state   speech-cr-postgres-1
```

Estos pasos no hacen que el operador actualice los operandos a las versiones más recientes. Sin embargo, los operandos se actualizan como se esperaba la próxima vez que actualice el software de servicios de Speech.

13 de octubre de 2022 (Versión 4.5.3)

Ya está disponible la versión 4.5.3

Speech to Text para IBM Cloud Pak for Data versión 4.5.3 ya está disponible. Esta versión es compatible con IBM Cloud Pak for Data versión 4.5.x y Red Hat OpenShift versiones 4.6, 4.8, y 4.10. Para más información, consulte Watson Servicios de voz en IBM Cloud Pak for Data.

Los sucesos de auditoría están disponibles para los servicios de voz

El servicio de registro de auditoría de IBM Cloud Pak for Data genera y reenvía sucesos de auditoría para los servicios Speech to Text y Text to Speech. Los sucesos de auditoría coinciden con los que están disponibles para Activity Tracker con el servicio público. Para obtener más información, consulte Sucesos de auditoría.

No puede desinstalar componentes de servicio Speech individuales

La documentación indica ahora que no puede desinstalar componentes de servicio individuales (microservicios) una vez instalados. Para eliminar cualquiera de los siguientes componentes, debe desinstalar los servicios Watson Speech en su totalidad y reinstalar solo los componentes que necesita: Speech to Text tiempo de ejecución, Speech to Text HTTP asíncrono, Speech to Text personalización, Text to Speech tiempo de ejecución y Text to Speech personalización. Para obtener más información sobre la instalación de los servicios de voz, consulte Watson Servicios de voz en IBM Cloud Pak for Data.

Nuevo modelo multimedia francés canadiense de próxima generación

El servicio ofrece ahora un modelo multimedia de nueva generación para los francocanadienses: fr-CA_Multimedia. El nuevo modelo soporta la baja latencia y está a disposición general. También es compatible con las gramáticas y la personalización del modelo de idioma. Para más información sobre los modelos de nueva generación y baja latencia, consulte

Actualizaciones de los modelos ingleses de telefonía de nueva generación

Los modelos ingleses de telefonía de nueva generación se han actualizado para mejorar el reconocimiento de voz:

en-AU_Telephony
en-GB_Telephony
en-IN_Telephony
en-US_Telephony

El modelo multimedia italiano de nueva generación ya admite baja latencia

El modelo multimedia de próxima generación italiano, it-IT_Multimedia, ahora admite una latencia baja. Para más información sobre los modelos de nueva generación y baja latencia, consulte

Resolución de problemas de actualización de la versión 4.0.x a la versión 4.5.x

Al actualizar los servicios de voz de la versión 4.0.x a la versión 4.5.x, es posible que se encuentre con un problema en el que los pods PostgreSQL se atascan en el estado Terminating. Si este problema se produce durante la actualización, realice los pasos siguientes para resolver el problema. La información y los pasos también se documentan en Actualización de servicios de voz de Watson de la versión 4.0 a la versión 4.5 en el tema Actualización de Watson Servicios de voz en IBM Cloud Pak for Data.

Utilice el mandato siguiente para identificar los pods que permanecen en el estado Terminating :

oc get pods -n ${PROJECT_CPD_INSTANCE} -o wide | awk {'print $1'}

Utilice el mandato siguiente para establecer la variable de entorno pods para incluir la lista de pods que permanecen en el estado Terminating :

pods=$(oc get pods -n ${PROJECT_CPD_INSTANCE} -o wide | awk {'print $1'})

Utilice el mandato siguiente para suprimir los pods atascados para que el proceso de actualización pueda continuar:

pods=$(oc get pods -n ${PROJECT_CPD_INSTANCE} -o wide | grep Terminating | awk {'print $1'})

Arreglo de defectos: documentación de entradas de recurso personalizado de arreglo

Arreglo de defectos: La documentación para el recurso personalizado de servicios de voz ahora incluye dos puntos después de los nombres de los modelos koKrTelephony y nlNlTelephony. Anteriormente, la documentación para estas dos entradas omitió los dos puntos.

Vulnerabilidades de seguridad abordadas

Se han corregido las siguientes vulnerabilidades de seguridad:

19 de agosto de 2022 (Versión 4.5.1)

Importante: La fecha de desuso para la mayoría de los modelos de generación anterior es ahora el 3 de marzo de 2023

Reemplazado: este aviso de desuso ha sido reemplazado por la actualización de servicio del 23 de febrero de 2023. La fecha de fin de servicio para todos los modelos de generación anterior es ahora 31 de julio de 2023.

El 15 de marzo de 2022 quedaron obsoletos los modelos de la generación anterior para todas las lenguas excepto el árabe y el japonés. En ese momento, los modelos en desuso iban a permanecer disponibles hasta el 15 de septiembre de 2022. Para permitir a los usuarios más tiempo para migrar a los modelos de próxima generación adecuados, los modelos en desuso ahora permanecerán disponibles hasta el 3 de marzo de 2023. Al igual que con el aviso de desuso inicial, los modelos de generación anterior en árabe y japonés no están en desuso. Para obtener una lista completa de todos los modelos en desuso, consulte la actualización del servicio 15 de marzo de 2022(Versión 4.0.6).

El 3 de marzo de 2023, los modelos en desuso se eliminarán del servicio y de la documentación. Si utiliza alguno de los modelos obsoletos, deberá migrar al modelo equivalente de próxima generación antes del 3 de marzo de 2023.

Para obtener más información sobre los modelos de próxima generación a los que puede migrar desde cada uno de los modelos en desuso, consulte Idiomas y modelos de la generación anterior
Para obtener más información sobre los modelos de próxima generación, consulte Idiomas y modelos de próxima generación
Para obtener más información sobre la migración de modelos de la generación anterior a modelos de la próxima generación, consulte Migración a modelos de próxima generación.

3 de agosto de 2022 (Versión 4.5.1)

Ya está disponible la versión 4.5.1

Speech to Text para IBM Cloud Pak for Data versión 4.5.1 ya está disponible. Esta versión es compatible con IBM Cloud Pak for Data versión 4.5.x y Red Hat OpenShift versiones 4.6, 4.8, y 4.10. Para más información, consulte Watson Servicios de voz en IBM Cloud Pak for Data.

Soporte para clústeres habilitados para FIPS

Speech to Text para IBM Cloud Pak for Data y Text to Speech para IBM Cloud Pak for Data ahora dan soporte a la ejecución en clústeres habilitados para FIPS (Federal Information Processing Standard). Para obtener más información, consulte Servicios que dan soporte a FIPS.

Arreglo de defectos: arregle los cálculos de almacenamiento efímero para evitar desalojos ocasionales de pod

Arreglo de defectos: Se ha solucionado un defecto y el cálculo de los límites de almacenamiento efímero es ahora más preciso para los tiempos de ejecución de Speech to Text para IBM Cloud Pak for Data y Text to Speech para IBM Cloud Pak for Data. Estos cambios evitan desalojos ocasionales de pods cuando los tiempos de ejecución de los servicios están bajo mucha carga.

Arreglo de defectos: actualizar la documentación de vacilaciones de voz y marcadores de vacilación

Corrección de defectos: Se ha actualizado la documentación de las vacilaciones del habla y los marcadores de vacilación. Los modelos de generación anterior incluyen marcadores de vacilación en lugar de vacilaciones de voz en los resultados de transcripción para la mayoría de los idiomas; el formateo inteligente elimina los marcadores de vacilación de las transcripciones finales en inglés de EE.UU. Los modelos de próxima generación incluyen las vacilaciones reales del habla en los resultados de la transcripción; el formato inteligente no tiene ningún efecto en su inclusión en los resultados finales de la transcripción.

Para obtener más información, consulte:

Vulnerabilidades de seguridad abordadas

Se han corregido las siguientes vulnerabilidades de seguridad:

29 de junio de 2022 (Versión 4.5.0)

Ya está disponible la versión 4.5.0

Speech to Text para IBM Cloud Pak for Data versión 4.5.0 ya está disponible. Esta versión es compatible con IBM Cloud Pak for Data versión 4.5.x y Red Hat OpenShift versiones 4.6, 4.8, y 4.10. Para más información, consulte Watson Servicios de voz en IBM Cloud Pak for Data.

Servicios de voz unificados para la documentación de IBM Cloud Pak for Data

La documentación de instalación y administración para Speech to Text y Text to Speech ahora se combina en la documentación de IBM Cloud Pak for Data. Para obtener más información sobre cómo instalar y gestionar los servicios de Speech, consulte Watson Servicios de Speech en IBM Cloud Pak for Data.

Cambios en el recurso personalizado de servicios de voz

El recurso personalizado se crea ahora al instalar inicialmente los servicios de Speech. El proceso se describe en la documentación de instalación de IBM Cloud Pak for Data. El contenido del recurso personalizado ha cambiado:

El nombre recomendado del recurso personalizado ha cambiado de speech-prod-cr a speech-cr.
Todas las referencias a la clase de almacenamiento han cambiado de variantes de storageClass a blockStorageClass.
El nombre de la clase de almacenamiento en bloque Portworx ha cambiado de portworx-shared-gp3 a portworx-db-gp3-sc.
La propiedad createSecret se ha eliminado para los almacenes de datos MinIO y PostgreSQl. La propiedad sólo se utiliza internamente. Los servicios de voz siempre utilizan un objeto de secretos si crea uno, y siempre crean automáticamente el objeto si no se proporciona ninguno.

El objeto de secretos proporcionado por el usuario ahora está soportado para el almacén de datos RabbitMQ

Ahora puede proporcionar credenciales de seguridad para el almacén de datos RabbitMQ, del mismo modo que puede hacerlo para los almacenes de datos MinIO y PostgreSQL. El proceso documentado es similar para los tres almacenes de datos.

Nuevo modelo de próxima generación it-IT_Multimedia de italiano

El servicio ahora ofrece un modelo multimedia de próxima generación para italiano: it-IT_Multimedia. El nuevo modelo está disponible de forma general. No admite la latencia baja, pero sí las gramáticas y la personalización del modelo de idioma. Para obtener más información sobre todos los modelos de próxima generación disponibles, consulte Idiomas y modelos de próxima generación.

Modelos actualizados de próxima generación de telefonía y multimedia en coreano

Se han actualizado los modelos actuales de próxima generación de coreano:

El modelo ko-KR_Telephony se ha actualizado para mejorar el soporte de baja latencia para el reconocimiento de voz.
El modelo ko-KR_Multimedia se ha actualizado para mejorar el reconocimiento de voz. El modelo ahora también da soporte a la baja latencia.

Ambos modelos están disponibles a nivel general y ambos admiten las gramáticas y la personalización del modelo de idioma. No es necesario actualizar los modelos personalizados basados en estos modelos. Para obtener más información sobre todos los modelos de próxima generación disponibles, consulte Idiomas y modelos de próxima generación.

Actualizaciones de varios modelos de telefonía de próxima generación

Los siguientes modelos de telefonía en inglés de nueva generación se han actualizado para mejorar el reconocimiento de voz:

en-AU_Telephony
en-GB_Telephony
en-IN_Telephony
en-US_Telephony

No es necesario actualizar modelos personalizados basados en estos modelos. Para obtener más información sobre todos los modelos de próxima generación disponibles, consulte Idiomas y modelos de próxima generación.

Arreglo de defectos: ahora se notifican las puntuaciones de confianza para todos los resultados de transcripción

Arreglo de defectos: ahora se notifican las puntuaciones de confianza para todos los resultados de transcripción. Anteriormente, cuando el servicio devolvía varias transcripciones para una única solicitud de reconocimiento de voz única, las puntuaciones de confianza podían no devolverse para todas las transcripciones.

Vulnerabilidades de seguridad abordadas

No se han corregido vulnerabilidades de seguridad para la versión 4.5.0.

25 de mayo de 2022 (Versión 4.0.9)

La versión 4.0.9 ya está disponible

Speech to Text para IBM Cloud Pak for Data versión 4.0.9 ya está disponible. Esta versión da soporte a IBM Cloud Pak for Data versión 4.x y Red Hat OpenShift versiones 4.6 y 4.8. Para obtener más información sobre cómo instalar y gestionar el servicio, consulte Instalación de Watson Speech to Text.

Nuevo modelo de próxima generación pt-BR_Multimedia de portugués de Brasil

El servicio ahora ofrece un modelo multimedia de próxima generación para portugués de Brasil: pt-BR_Multimedia. El nuevo modelo soporta la baja latencia y está a disposición general. También es compatible con las gramáticas y la personalización del modelo de idioma. Para obtener más información sobre los modelos de próxima generación y la baja latencia, consulte

Actualización para que el modelo de próxima generación de-DE_Multimedia de alemán admita la baja latencia

El modelo de alemán de próxima generación, de-DE_Multimedia, ahora admite la baja latencia. No es necesario actualizar los modelos personalizados basados en el modelo base actualizado para alemán. Para obtener más información sobre los modelos de próxima generación y la baja latencia, consulte

Nuevo parámetro beta character_insertion_bias para modelos de próxima generación

Todos los modelos de próxima generación admiten ahora un nuevo parámetro beta, character_insertion_bias, que está disponible con todas las interfaces de reconocimiento de voz. De forma predeterminada, el servicio está optimizado para que cada modelo individual equilibre su reconocimiento de series candidatas de diferentes longitudes. El sesgo específico del modelo es equivalente a 0.0. El sesgo predeterminado de cada modelo es suficiente para la mayoría de las solicitudes de reconocimiento de voz.

Sin embargo, ciertos casos de uso pueden beneficiarse de hipótesis a favor con series de caracteres más cortas o más largas. El parámetro acepta valores entre -1.0 y 1.0 que representan un cambio del valor predeterminado de un modelo. Los valores negativos indican al servicio que favorezca las series más cortas de caracteres. Los valores positivos indican al servicio que favorezca las series de caracteres más largas. Para obtener más información, consulte Sesgo de inserción de caracteres.

Los servicios de voz no dan soporte al programa de utilidad de copia de seguridad y restauración de OADP

Los servicios de voz de Watson no dan soporte al programa de utilidad de copia de seguridad y restauración de IBM Cloud Pak for Data OADP (OpenShift APIs for Data Protection). Si los servicios de voz están instalados en un clúster, es posible que no pueda utilizar el programa de utilidad de copia de seguridad y restauración de IBM Cloud Pak for Data OADP para realizar una copia de seguridad de otros servicios instalados en dicho clúster. Esta limitación se aplica a las versiones 4.0.0 y posteriores de los servicios de voz.

Vulnerabilidades de seguridad abordadas

Se han corregido las siguientes vulnerabilidades de seguridad:

1 de mayo de 2022 (Versión 1.2.x)

Importante: fin del servicio para Speech to Text versión 1.2.x en IBM Cloud Pak for Data versión 3.5: Importante: Speech to Text versión 1.2.x en IBM Cloud Pak for Data versión 3.5 está fuera de servicio a partir del 1 de mayo de 2022. Speech to Text versión 1.2.x ha dejado de estar soportado, disponible y documentado. Para obtener más información sobre el Fin de servicio de Speech to Text, que forma parte del Kit de API de Watson, consulte Interrupción del soporte de software: Kit de API de IBM Watson para IBM Cloud Pak for Data 1.2.x.

27 de abril de 2022 (Versión 4.0.8)

La versión 4.0.8 ya está disponible

Speech to Text for IBM Cloud Pak for Data versión 4.0.8 ya está disponible. Esta versión da soporte a IBM Cloud Pak for Data versión 4.x y Red Hat OpenShift versiones 4.6 y 4.8. Para obtener más información sobre cómo instalar y gestionar el servicio, consulte Instalación de Watson Speech to Text.

Nuevas variables de entorno utilizadas en la documentación de IBM Cloud Pak for Data

La mayoría de los mandatos de la documentación de Speech to Text for IBM Cloud Pak for Data se han actualizado para utilizar un conjunto común de variables de entorno. La documentación proporciona un script para exportar automáticamente las variables de entorno antes de ejecutar mandatos de instalación, actualización y administración. Después de obtener el origen del script, puede copiar la mayoría de los mandatos de la documentación y ejecutarlos sin realizar ningún cambio.

Las variables de entorno que define el script incluyen las siguientes:

${PROJECT_CPD_INSTANCE} identifica el proyecto en el que tiene previsto instalar IBM Cloud Pak for Data y los servicios de voz.
${PROJECT_CPD_OPS} identifica el proyecto para el operador de plataforma de IBM Cloud Pak for Data.
${PROJECT_CPFS_OPS} identifica el proyecto para los servicios básicos de IBM Cloud Pak for Data.

Para obtener más información sobre cómo utilizar las variables de entorno, consulte Prácticas recomendadas: Configuración de variables de instalación.

La propiedad ttsVoiceMarginalCPU ya no está documentada

La propiedad ttsVoiceMarginalCPU se ha eliminado de la documentación del recurso personalizado de servicios de voz. La propiedad gestiona el equilibrio entre simultaneidad y velocidad de síntesis del habla. El valor predeterminado de 400 garantiza un equilibrio razonable para la mayoría de clientes y mantiene la síntesis en tiempo real.

Nuevo modelo multimedia de próxima generación para alemán

El servicio ahora ofrece un modelo multimedia de próxima generación para alemán: de-DE_Multimedia. El nuevo modelo está disponible de forma general. No admite la baja latencia. Admite las gramáticas y la personalización del modelo de idioma como funcionalidad de disponibilidad general.

Para obtener más información sobre todos los modelos de próxima generación disponibles y su soporte de personalización, consulte

El modelo beta en-WW_Medical_Telephony de próxima generación ahora admite la baja latencia

El modelo beta en-WW_Medical_Telephony de próxima generación ahora admite la baja latencia. Para obtener más información sobre todos los modelos de próxima generación y baja latencia, consulte

Vulnerabilidades de seguridad abordadas

Se han corregido las siguientes vulnerabilidades de seguridad:

8 de abril de 2022 (Versión 4.0.7)

El soporte para pronunciaciones similares está ahora documentado para los modelos personalizados basados en modelos de próxima generación

Para los modelos de idioma personalizados basados en modelos de próxima generación, el soporte está ahora documentado para las especificaciones de pronunciaciones parecidas para palabras personalizadas. El soporte para pronunciaciones parecidas ha estado disponible desde finales de 2021.

Existen diferencias entre el uso del campo sounds_like para modelos personalizados basados en modelos de generación anterior y de próxima generación. Para obtener más información sobre la utilización del campo sounds_like con modelos personalizados basados en modelos de próxima generación, consulte Trabajar con palabras personalizadas para modelos de próxima generación.

Importante: se ha eliminado el parámetro customization_id en desuso de la documentación

Importante: el 9 de octubre de 2018, el parámetro customization_id de todas las solicitudes de reconocimiento de voz quedó en desuso y ha sido sustituido por el parámetro language_customization_id. El parámetro customization_id se ha eliminado de la documentación para los métodos de reconocimiento de voz:

/v1/recognize para solicitudes WebSocket
POST /v1/recognize para solicitudes HTTP síncronas (incluidas las solicitudes de varias partes)
POST /v1/recognitions para solicitudes HTTP asíncronas

Nota: si utiliza los SDK de Watson, asegúrese de haber actualizado cualquier código de aplicación para utilizar el parámetro language_customization_id en lugar del parámetro customization_id. El parámetro customization_id ya no estará disponible en los métodos equivalentes de los SDK a partir de su próximo release principal. Para obtener más información sobre los métodos de reconocimiento de voz, consulte la Referencia de API y SDK.

30 de marzo de 2022 (Versión 4.0.7)

La versión 4.0.7 ya está disponible

Speech to Text for IBM Cloud Pak for Data versión 4.0.7 ya está disponible. Esta versión da soporte a IBM Cloud Pak for Data versión 4.x y Red Hat OpenShift versiones 4.6 y 4.8. Para obtener más información sobre cómo instalar y gestionar el servicio, consulte Instalación de Watson Speech to Text.

Propiedad de recurso personalizado para especificar un modelo predeterminado

La voz predeterminada para las solicitudes de reconocimiento de voz es en-US_BroadbandModel. Si no instala en-US_BroadbandModel, debe

Utilizar el parámetro model para pasar la voz que se va a utilizar con cada solicitud.
Especificar una nueva voz predeterminada para la instalación de Speech to Text for IBM Cloud Pak for Data utilizando la propiedad defaultSTTModel en el recurso personalizado de servicios de voz. Para obtener más información, consulte Instalación de Watson Speech to Text y Utilización del modelo predeterminado.

Actualizaciones de modelos multimedia de próxima generación para inglés y francés para dar soporte a la baja latencia

Se han actualizado los siguientes modelos multimedia para dar soporte a la baja latencia:

Inglés de Australia: en-AU_Multimedia
Inglés de Reino Unido: en-GB_Multimedia
Inglés de Estados Unidos: en-US_Multimedia
Francés: fr-FR_Multimedia

No es necesario actualizar los modelos de idioma personalizados que se basan en estos modelos base. Para obtener más información sobre los modelos de próxima generación y la baja latencia, consulte

Nuevo modelo multimedia de próxima generación para castellano

El servicio ofrece ahora un modelo multimedia de próxima generación para castellano: es-ES_Multimedia. El nuevo modelo soporta la baja latencia y está a disposición general. También es compatible con las gramáticas y la personalización del modelo de idioma.

Para obtener más información sobre todos los modelos de próxima generación disponibles y su soporte de personalización, consulte

El modelo beta de nueva generación en-WW_Medical_Telephony ahora da soporte al formateo inteligente

El modelo beta de próxima generación en-WW_Medical_Telephony ahora da soporte al parámetro smart_formatting para el audio en inglés de EE. UU. Para obtener más información sobre todos los modelos de próxima generación, consulte Idiomas y modelos de próxima generación

Vulnerabilidades de seguridad abordadas

Se han corregido las siguientes vulnerabilidades de seguridad:

Red Hat CVE-2022-24407: Se ha encontrado un fallo en el complemento SQL incluido con Cyrus SASL. La vulnerabilidad se produce porque no se ha podido escapar correctamente de la entrada de SQL y se genera una vulnerabilidad de validación de entrada incorrecta. Este defecto permite a un atacante ejecutar mandatos SQL arbitrarios y cambiar las contraseñas de otras cuentas para permitir el escalado de privilegios.
Boletín de seguridad: Una vulnerabilidad jwt-go afecta a IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data(CVE-2020-26160)
Boletín de seguridad: Una vulnerabilidad en Golang Go afecta a IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data(CVE-2021-29923)
Boletín de seguridad: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data está afectado pero no clasificado como vulnerable por una ejecución remota de código en Spring Framework(CVE-2022-22965)
Boletín de seguridad: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data es vulnerable a la ejecución arbitraria de código con IBM WebSphere Application Server(CVE-2021-23450)

17 de marzo de 2022 (Versión 4.0.6)

El soporte de gramática para los modelos de próxima generación ahora está disponible de forma general

Ahora el soporte de gramática está disponible de forma general (GA) para los modelos de próxima generación que cumplen las siguientes condiciones:

Los modelos están generalmente disponibles.
Los modelos soportan la personalización del modelo de idioma.

Para obtener más información, consulte los siguientes temas:

Para obtener más información sobre el estado del soporte de gramática para modelos de próxima generación, consulte Soporte de personalización para modelos de próxima generación.
Para obtener más información sobre gramáticas, consulte Gramáticas.

15 de marzo de 2022 (Versión 4.0.6)

Importante: desuso de la mayoría de modelos de la generación anterior

A partir del 15 de marzo de 2022, los modelos de generación anterior para todos los idiomas que no sean árabe y japonés están en desuso. Los modelos en desuso permanecen disponibles hasta el 15 de septiembre de 2022, cuando serán retirados del servicio y de la documentación. Los modelos árabe y japonés de la generación anterior no están obsoletos.

Los siguientes modelos de la generación anterior ahora están en desuso:

Chino (mandarín): zh-CN_NarrowbandModel y zh-CN_BroadbandModel
Holandés (Países Bajos): nl-NL_NarrowbandModel y nl-NL_BroadbandModel
Inglés (australiano): en-AU_NarrowbandModel y en-AU_BroadbandModel
Inglés (Reino Unido): en-UK_NarrowbandModel y en-UK_BroadbandModel
Inglés (Estados Unidos): en-US_NarrowbandModel, en-US_BroadbandModel y en-US_ShortForm_NarrowbandModel
Francés (canadiense): fr-CA_NarrowbandModel y fr-CA_BroadbandModel
Francés (Francia): fr-FR_NarrowbandModel y fr-FR_BroadbandModel
Alemán: de-DE_NarrowbandModel y de-DE_BroadbandModel
Italiano: it-IT_NarrowbandModel y it_IT_BroadbandModel
Coreano: ko-KR_NarrowbandModel y ko-KR_BroadbandModel
Portugués (brasileño): pt-BR_NarrowbandModel y pt-BR_BroadbandModel
Español (argentino): es-AR_NarrowbandModel y es-AR_BroadbandModel
Español (castellano): es-ES_NarrowbandModel y es-ES_BroadbandModel
Español (chileno): es-CL_NarrowbandModel y es-CL_BroadbandModel
Español (colombiano): es-CO_NarrowbandModel y es-CO_BroadbandModel
Español (mexicano): es-MX_NarrowbandModel y es-MX_BroadbandModel
Español (peruano): es-PE_NarrowbandModel y es-PE_BroadbandModel

Si utiliza cualquiera de estos modelos en desuso, debe migrar al modelo de próxima generación equivalente antes de la fecha de fin de servicio.

Para obtener más información sobre los modelos de próxima generación a los que puede migrar desde cada uno de los modelos en desuso, consulte Idiomas y modelos de la generación anterior
Para obtener más información sobre los modelos de próxima generación, consulte Idiomas y modelos de próxima generación
Para obtener más información sobre la migración de modelos de la generación anterior a modelos de la próxima generación, consulte Migración a modelos de próxima generación.

Nota: cuando el en-US_BroadbandModel de la generación anterior se elimina del servicio el 15 de septiembre, el modelo en-US_Multimedia de próxima generación se convertirá en el modelo predeterminado para las solicitudes de reconocimiento de voz.

Los modelos de próxima generación ahora dan soporte a parámetros de análisis de audio

Todos los modelos de próxima generación ahora dan soporte a los siguientes parámetros de análisis de audio como características de disponibilidad general:

end_of_phrase_silence_time especifica la duración del intervalo de pausa en el que el servicio divide una transcripción en varios resultados finales. Para obtener más información, consulte Tiempo de silencio de fin de frase.
split_transcript_at_phrase_end indica al servicio que divida la transcripción en varios resultados finales basándose en las características semánticas de la entrada. Para obtener más información, consulte División de la transcripción al final de la frase.

Corrección de defectos: Corrección de la documentación de las etiquetas de los altavoces

Corrección de defecto: la documentación de las etiquetas de orador incluye la siguiente declaración errónea en varios lugares: Para los modelos de próxima generación, las etiquetas de orador no están soportadas para su uso con resultados provisionales o la baja latencia. Las etiquetas de orador están soportadas para su uso con resultados provisionales y la baja latencia para los modelos de próxima generación. Para obtener más información, consulte Etiquetas de orador.

23 de febrero de 2022 (Versión 4.0.6)

La versión 4.0.6 ya está disponible

Speech to Text para IBM Cloud Pak for Data versión 4.0.6 ya está disponible. Esta versión da soporte a IBM Cloud Pak for Data versión 4.x y Red Hat OpenShift versiones 4.6 y 4.8. Para obtener más información sobre cómo instalar y gestionar el servicio, consulte Instalación de Watson Speech to Text.

Actualizaciones para importar/exportar scripts

Los scripts import_export.sh y transfer_ownership.sh se han actualizado. Estos scripts se utilizan para importar y exportar datos entre clústeres, hacer una copia de seguridad y restaurar datos y migrar datos de la versión 3.5 a la versión 4.0.x. Los scripts se han modificado y mejorado de la siguiente manera:

El script transfer_ownership.sh ahora requiere que se incluya una opción -c en la línea de mandatos antes del argumento <custom_resource_name>.
El script transfer_ownership.sh requiere ahora una opción y un argumento -v <version> para indicar la versión a la que se transfiere la propiedad de los recursos. Especifique 35 para la versión 3.5 o 40 para la versión 4.0.x.
El script transfer_ownership.sh ahora requiere que se incluya una opción -p en la línea de mandatos antes del argumento <postgres_auth_secret_name>.
El argumento <postgres_auth_secret_name> proporciona el secreto de Kubernetes que se utiliza para autenticarse en el almacén de datos de PostgreSQL al que va a transferir la propiedad. Puede omitir el secreto de autenticación si es el mismo que el valor predeterminado (<custom-resource-name>-postgres-auth-secret para la versión 4.0.x, user-provided-postgressql para la versión 3.5). Debe proporcionar el secreto si es diferente del valor predeterminado.
Ambos scripts ahora incluyen una opción -h (--help) para visualizar información sobre el script y su uso.

Para obtener más información, consulte

Administración de Watson Speech to Text, específicamente Importación y exportación de datos y Copia de seguridad y restauración de datos.
Actualización de Watson Speech to Text, específicamente Migración de datos desde IBM Cloud Pak for Data Versión 3.5.

Recomendación actualizada para OpenShift Container Storage

A partir de la versión 4.0.6 de los servicios de voz, la clase de almacenamiento recomendada para OpenShift Container Storage es ocs-storagecluster-ceph-rbd.

Si está instalando los servicios de voz 4.0.6 o actualizando a los servicios de voz 4.0.6 desde IBM Cloud Pak for Data versión 3.5, especifique la clase de almacenamiento de ocs-storagecluster-ceph-rbd durante la instalación o actualización.
Si está actualizando a los servicios de voz 4.0.6 desde una renovación anterior de Cloud Pak for Data versión 4.0, continúe utilizando ocs-storagecluster-cephfs. No puede cambiar el almacenamiento que se utiliza en un despliegue existente.

El valor se especifica con la propiedad storageClass en el recurso personalizado de servicios de voz:

################
# Storage class
################
  storageClass: "ocs-storagecluster-ceph-rbd"

Los servicios de voz funcionan con cualquiera de las versiones de OpenShift Container Storage. La versión recién recomendada tiene permisos de acceso más restrictivos. Para obtener más información, consulte

El nuevo modelo beta en-WW_Medical_Telephony ya está disponible

Ya está disponible una nueva versión beta de en-WW_Medical_Telephony de la próxima generación. El nuevo modelo entiende los términos de los dominios médico y farmacológico. Utilice el modelo en situaciones en las que necesite transcribir terminología médica común, como nombres de medicamentos, marcas de productos, procedimientos médicos, enfermedades, tipos de médicos o terminología relacionada con el COVID-19. Los casos de uso común incluyen conversaciones entre un paciente y un proveedor médico (por ejemplo, un médico, una enfermera o un farmacéutico).

El nuevo modelo se instala desde el recurso personalizado de servicios de voz estableciendo enWwMedicalTelephony en enabled: true. El modelo está disponible para todos los dialectos ingleses soportados: de Australia, India, R.U. y EE.UU.

El modelo soporta la personalización del modelo de idioma y las gramáticas como una funcionalidad beta.
Da soporte a la mayoría de los mismos parámetros que el modelo en-US_Telephony.
no da soporte a los siguientes parámetros: low_latency, profanity_filter, redaction y speaker_labels.
En este momento, no da soporte a smart_formatting para IBM Cloud Pak for Data.

Para obtener más información, consulte El modelo de telefonía médica en inglés.

Actualizar al modelo zh-CN_Telephony para chino

El modelo de próxima generación zh-CN_Telephony para chino se ha actualizado para mejorar el reconocimiento de voz. El modelo sigue dando soporte a la baja latencia. De forma predeterminada, el servicio utiliza automáticamente el modelo actualizado para todas las solicitudes de reconocimiento de voz. Para obtener más información sobre todos los modelos de próxima generación disponibles, consulte Idiomas y modelos de próxima generación.

Si tiene modelos de idioma personalizados basados en el modelo actualizado, debe actualizar los modelos personalizados existentes para aprovechar las actualizaciones utilizando el método POST /v1/customizations/{customization_id}/upgrade_model. Para obtener más información, consulte Actualización de modelos personalizados.

Actualización al modelo ja-JP_Multimedia para japonés para dar soporte a la baja latencia

El modelo de próxima generación ja-JP_Multimedia para japonés ahora da soporte a la baja latencia. Puede utilizar el parámetro low_latency con las solicitudes de reconocimiento de voz que utilizan el modelo. No es necesario actualizar modelos personalizados basados en el modelo base actualizado para japonés. Para obtener más información sobre los modelos de próxima generación y la baja latencia, consulte Idiomas y modelos de próxima generación y Baja latencia.

11 de febrero de 2022 (Versión 4.0.5)

Corrección de defectos: Mejora de la documentación de actualización del modelo personalizado y de la versión del modelo base

Arreglo de defecto: la documentación que describe la actualización de modelos personalizados y las series de versión que se utilizan para diferentes versiones de modelos base se ha actualizado. La documentación ahora indica que la actualización para la personalización del modelo de idioma también se aplica a los modelos de próxima generación. Además, se han actualizado las series de versión que representan versiones distintas de modelos base. Además, el parámetro base_model_version también se puede utilizar con modelos de próxima generación actualizados.

Para obtener más información sobre la actualización del modelo personalizado, cuándo es necesario actualizar y cómo utilizar versiones anteriores de modelos personalizados, consulte

Corrección de defectos: Actualización de la documentación sobre mayúsculas y minúsculas

Arreglo de defecto: la documentación que describe la capitalización automática del servicio de transcripciones se ha actualizado. El servicio capitaliza los nombres adecuados sólo para los siguientes idiomas y modelos:

Todos los modelos para inglés de EE.UU. de la generación anterior
El modelo de próxima generación para alemán

Para obtener más información, consulte Capitalización.

31 de enero de 2022 (Versión 4.0.5)

Se ha actualizado la versión 4.0.5

Speech to Text para IBM Cloud Pak for Data versión 4.0.5 se ha actualizado para resolver problemas de instalación. La versión del paquete de casos ahora es 4.0.6. Utilice este paquete en lugar del paquete de la versión 4.0.5. Para obtener más información sobre cómo instalar y gestionar el servicio, consulte Instalación de Watson Speech to Text.

Importante: ya no son necesarios pasos adicionales para la instalación duplicada

Importante: las Notas del release del 26 de enero de 2022 incluían notas importantes para los siguientes pasos:

Paso adicional para realizar una instalación duplicada del almacén de datos Minio
Pasos adicionales para realizar una instalación duplicada de nuevos modelos de próxima generación

Estos pasos adicionales ya no son necesarios. El paquete de casos se ha actualizado para corregir los problemas de instalación.

26 de enero de 2022 (Versión 4.0.5)

Ahora está disponible la versión 4.0.5

Speech to Text para IBM Cloud Pak for Data versión 4.0.5 ya está disponible. Esta versión da soporte a IBM Cloud Pak for Data versión 4.x y Red Hat OpenShift versiones 4.6 y 4.8. Para obtener más información sobre cómo instalar y gestionar el servicio, consulte Instalación de Watson Speech to Text.

Importante: paso adicional para realizar una instalación duplicada del almacén de datos Minio

Importante: estos pasos ya no son necesarios si instala el paquete de casos 4.0.6. Para más información, véase 31 de enero de 2022(Versión 4.0.5).

Si está realizando una instalación duplicada (por ejemplo, en un entorno aislado), debe realizar un paso adicional antes de completar cualquiera de los pasos siguientes:

Paso 7 Duplicación de las imágenes en el registro privado de Duplicación de imágenes con un modelo de bastión
Paso 8 Duplicación de las imágenes en el registro de contenedor intermediario de Duplicación de imágenes con un registro de contenedor intermediario

Este paso es obligatorio para copiar las imágenes necesarias para el almacén de datos Minio:

echo 'cp.icr.io,cp/opencontent-minio-client,1.1.4,sha256:7b4cf5e47a0455cfa7ca9ab246b80916e4dccbc1483b3e0f276fb7b0ab3e5c60,IMAGE,linux,x86_64,"",0,CASE,"",""' \
>> $CASE_PATH/ibm-watson-speech-4.0.5-images.csv

Si no se puede realizar este paso, se producirán errores de instalación para Speech to Text y Text to Speech.

Importante: pasos adicionales para realizar una instalación duplicada de nuevos modelos de próxima generación

Importante: estos pasos ya no son necesarios si instala el paquete de casos 4.0.6. Para más información, véase 31 de enero de 2022(Versión 4.0.5).

Si está realizando una instalación duplicada (por ejemplo, para un entorno aislado) y tiene previsto instalar cualquiera de los nuevos modelos de próxima generación para Speech to Text (para obtener más información, consulte la última nota de release), debe realizar un paso adicional antes de completar cualquiera de los pasos siguientes:

Paso 7 Duplicación de las imágenes en el registro de contenedor privado de Duplicación de imágenes con un modelo de bastión
Paso 8 Duplicación de las imágenes en el registro de contenedor intermediario de Duplicación de imágenes con un registro de contenedor intermediario

Cada paso adicional es exclusivo del modelo que se está instalando. Si instala más de uno de los nuevos modelos, emita el mandato indicado para cada modelo que esté instalando.

Para el modelo de telefonía para chino (zh-CN_Telephony):

echo 'cp.icr.io,cp/watson-speech/zh-cn-telephony,2022-01-05-405models,sha256:52af6dfccd64ccd81b409936442a51a71f4ee96d980e1fc6a343a05bd4ed7fbc,IMAGE,linux,x86_64,"",0,CASE,"",""' \
>> $CASE_PATH/ibm-watson-speech-4.0.5-images.csv

Para el modelo de telefonía para español de Latinoamérica (es-LA_Telephony):

echo 'cp.icr.io,cp/watson-speech/es-la-telephony,2022-01-05-405models,sha256:58e8c04abe9659472e89bf0778b7dc66e0ddceb4ea18d9d3e048a08c72125ea2,IMAGE,linux,x86_64,"",0,CASE,"",""' \
>> $CASE_PATH/ibm-watson-speech-4.0.5-images.csv

Para el modelo multimedia para inglés de Australia (en-AU_Multimedia):

echo 'cp.icr.io,cp/watson-speech/en-au-multimedia,2022-01-05-405models,sha256:167f9a76258530a56a6abdd1c311f2ea05d6820ee0e802fbf2f96f08fb8a7646,IMAGE,linux,x86_64,"",0,CASE,"",""' \
>> $CASE_PATH/ibm-watson-speech-4.0.5-images.csv

Para el modelo multimedia para inglés del Reino Unido (en-GB_Multimedia):

echo 'cp.icr.io,cp/watson-speech/en-gb-multimedia,2022-01-05-405models,sha256:167f9a76258530a56a6abdd1c311f2ea05d6820ee0e802fbf2f96f08fb8a7646,IMAGE,linux,x86_64,"",0,CASE,"",""' \
>> $CASE_PATH/ibm-watson-speech-4.0.5-images.csv

Ahora el servidor de licencias se instala automáticamente

El operador de servicios de voz ahora instala automáticamente el servidor de licencias necesario cuando instala los servicios de voz. Ya no es necesario instalar el servidor de licencias desde los servicios fundacionales de IBM Cloud Pak for Data y ya no es necesario utilizar contenido adicional del YAML para crear una OperandRequest con los enlaces necesarios.

Eliminación de pasos específicos del servidor PostgreSQL EnterpriseDB

La versión anterior de la documentación incluía pasos para el servidor PostgreSQL EnterpriseDB que eran específicos de los servicios de voz. Estos pasos se documentaron en los temas Actualización de Watson Speech to Text (Versión 4.0) y Desinstalación de Watson Speech to Text. Estos pasos adicionales ya no son necesarios y se han eliminado de la documentación.

El almacén de datos de RabbitMQ ahora sólo lo utiliza el componente sttAsync

El almacén de datos de RabbitMQ lo han utilizado anteriormente los componentes de los servicios de voz, Speech to Text y también Text to Speech. Ahora maneja la gestión de colas de mensajes no persistentes para el componente HTTP asíncrono Speech to Text (sttAsync) únicamente. Sólo se utiliza si el componente sttAsync está instalado y habilitado.

Nuevos modelos de próxima generación

El servicio ahora da soporte a los siguientes modelos de próxima generación con Speech to Text para IBM Cloud Pak for Data:

Modelo de telefonía para chino (mandarín) (zh-CN_Telephony). El nuevo modelo admite la baja latencia.
Modelo multimedia para inglés (Australia) (en-AU_Multimedia). El nuevo modelo no da soporte a la baja latencia.
Modelo multimedia para inglés (Reino Unido) (en-GB_Multimedia). El nuevo modelo no admite la baja latencia.
Modelo de telefonía para español (Latinoamérica) (es-LA_Telephony). El nuevo modelo admite la baja latencia.

Nota: el modelo para español de Latinoamérica, es-LA_Telephony, se aplica a todos los dialectos latinoamericanos. Es el equivalente a los modelos de la generación anterior que están disponibles para los dialectos argentino, chileno, colombiano, mexicano y peruano. Si ha utilizado un modelo de la generación anterior para cualquiera de estos dialectos específicos, utilice el modelo es-LA_Telephony para migrar al modelo de próxima generación equivalente.

Los nuevos modelos están disponibles a nivel general para el reconocimiento de voz. Están disponibles a nivel general para la personalización del modelo de idioma y son beta para las gramáticas. No están soportados para la personalización de modelos acústicos.

Importante: si está realizando una instalación duplicada (por ejemplo, en un entorno aislado) y tiene previsto instalar cualquiera de los nuevos modelos de próxima generación para Speech to Text, debe realizar pasos adicionales antes de duplicar las imágenes. Para obtener más información, consulte la nota del release anterior.
Para obtener más información sobre cómo utilizar el recurso personalizado para instalar modelos, consulte Instalación de Watson Speech to Text.
Para obtener más información sobre todos los modelos de próxima generación disponibles, consulte Idiomas y modelos de próxima generación.
Para obtener más información sobre el soporte de personalización para modelos de próxima generación, consulte Soporte de personalización para modelos de próxima generación.

Ahora los modelos de próxima generación para inglés de EE.UU. están instalados de forma predeterminada

Los modelos de próxima generación para inglés de EE.UU., en-US_Multimedia y en-US_Telephony, ahora están instalados de forma predeterminada con Speech to Text para IBM Cloud Pak for Data. Estos modelos se unen a en-US_BroadbandModel, en-US_NarrowbandModel, en-US_ShortForm_NarrowbandModel como los modelos que se instalan de forma predeterminada. Los modelos ahora tienen las siguientes entradas en el recurso personalizado de servicios de voz:

########################################
# Speech to Text next-generation models
########################################
      enUsMultimedia:    # US English (en-US) Multimedia model
        enabled: true
      enUsTelephony:     # US English (en-US) Telephony model
        enabled: true

For more information about using the custom resource to install models, see Installing Watson Speech to Text.

Vulnerabilidades de seguridad abordadas

Se han corregido las siguientes vulnerabilidades de seguridad asociadas con Apache Log4j:

20 de diciembre de 2021 (Versión 4.0.4)

La versión 4.0.4 ya está disponible

Speech to Text para IBM Cloud Pak for Data versión 4.0.4 ya está disponible. Esta versión da soporte a IBM Cloud Pak for Data versión 4.x y Red Hat OpenShift versiones 4.6 y 4.8. Para obtener más información sobre cómo instalar y gestionar el servicio, consulte Instalación de Watson Speech to Text.

Importante: cambios en las propiedades para inhabilitar el almacenamiento y el registro de datos de usuario

Importante: han cambiado los nombres de las propiedades del recurso personalizado de servicios de voz que especifican si los datos de usuario se almacenan y registran. El recurso personalizado contenía anteriormente las propiedades siguientes:

#################
# Anonymize logs
#################
  sttRuntime:
    anonymizeLogs: "false"  # If true, disables storage and logging of user data
  sttAMPatcher:
    anonymizeLogs: "false"  # If true, disables storage and logging of user data
  ttsRuntime:
    anonymizeLogs: "false"  # If true, disables storage and logging of user data

Estas propiedades se denominan ahora de la siguiente manera:

###################################
# Storage and logging of user data
###################################
  sttRuntime:
    skipAudioAndResultLogging: "false"  # If true, disables storage and logging of user data
  sttAMPatcher:
    skipAudioAndResultLogging: "false"  # If true, disables storage and logging of user data
  ttsRuntime:
    skipAudioAndResultLogging: "false"  # If true, disables storage and logging of user data

Si ya ha establecido estas propiedades en el recurso personalizado para cambiar el valor predeterminado de false a true, debe editar el recurso personalizado. Debe cambiar manualmente los nombres de las propiedades a los nuevos valores y guardar el recurso personalizado actualizado. Para obtener más información, consulte Instalación de Watson Speech to Text.

Importante: cambios en las propiedades del objeto de secretos de PostgreSQL

Importante: al instalar los servicios de voz, se crea de forma predeterminada un objeto que contiene una contraseña generada aleatoriamente para el almacén de datos de PostgreSQL. En su lugar, puede optar por especificar la contraseña manualmente. Si lo hace, las propiedades del archivo YAML para el objeto de secretos han cambiado. Para obtener más información, consulte el tema sobre la gestión de los almacenes de datos en Administración de Watson Speech to Text.

Importante: los pods PostgreSQL no se inician con el operador EnterpriseDB versión 1.10

Importante: con Speech to Text para IBM Cloud Pak for Data versión 4.0.3, los pods PostgreSQL basados en el operador EnterpriseDB versión 1.10 pueden fallar y no iniciarse. Esto impide que se inicien los servicios de voz. Existe un método alternativo para este problema. Si los servicios de voz no se inician, consulte PostgreSQL pods do not start with EnterpriseDB version 1.10 operator para obtener información sobre cómo diagnosticar y resolver el problema.

Este problema se ha corregido en Speech to Text para IBM Cloud Pak for Data versión 4.0.4.

Nuevo soporte para la clase de almacenamiento nativo del contenedor IBM Spectrum Scale

Desde la versión 4.0.3, los servicios de voz dan soporte a la clase de almacenamiento nativo del contenedor de IBM Spectrum® Scale. Para utilizar IBM Spectrum Scale, especifique "ibm-spectrum-scale-sc" para la propiedad storageClass del recurso personalizado de servicios de voz. Para obtener más información, consulte Instalación de Watson Speech to Text.

Interacción de servicios de voz con el almacén de datos MinIO durante la instalación

Los componentes de tiempo de ejecución de los servicios de voz, sttRuntime y ttsRuntime, no pueden iniciarse hasta que los modelos y las voces de los servicios se cargan completamente en el almacén de datos de MinIO. Durante la instalación, es posible que los servicios fallen y se reinicien automáticamente una o más veces hasta que se complete la carga de los modelos y las voces. A continuación, se inician correctamente. No se requiere ninguna acción de usuario.

Corrección de defectos: Corrección de la documentación de actualización

Arreglo de defecto: la documentación para actualizar los servicios de voz a las nuevas versiones de IBM Cloud Pak for Data versión 4.0.x incluía referencias incorrectas en algunos mandatos. Estas referencias ahora son correctas:

Las series watsonSpeechToTextStatus y watsonTextToSpeechStatus han cambiado a speechStatus en ambos casos.
Las series status.watsonSpeechToTextVersion y status.watsonTextToSpeechVersion han cambiado a .spec.version en ambos casos.

Para obtener más información, consulte Actualización de Watson Speech to Text.

Importante: los modelos de idioma personalizados basados en determinados modelos de próxima generación deben volver a crearse

Importante: si ha creado modelos de idioma personalizados basados en determinados modelos de próxima generación, debe volver a crear los modelos personalizados. Hasta que vuelva a crear los modelos de idioma personalizados, las solicitudes de reconocimiento de voz que intentan utilizar los modelos personalizados fallan con el código de error HTTP 400.

Debe volver a crear los modelos de idioma personalizados que ha creado basándose en las siguientes versiones de los modelos de próxima generación:

Para el modelo en-AU_Telephony, los modelos personalizados que ha creado de en-AU_Telephony.v2021-03-03 a en-AU_Telephony.v2021-10-04.
Para el modelo en-GB_Telephony, los modelos personalizados que ha creado de en-GB_Telephony.v2021-03-03 a en-GB_Telephony.v2021-10-04.
Para el modelo en-US_Telephony, los modelos personalizados que ha creado de en-US_Telephony.v2021-06-17 a en-US_Telephony.v2021-10-04.
Para el modelo en-US_Multimedia, los modelos personalizados que ha creado de en-US_Multimedia.v2021-03-03 a en-US_Multimedia.v2021-10-04.

Para identificar la versión de un modelo en el que se basa un modelo de idioma personalizado, utilice el método GET /v1/customizations para listar todos los modelos de idioma personalizados o el método GET /v1/customizations/{customization_id} para listar un modelo de idioma personalizado específico. El campo versions de la salida muestra el modelo base para un modelo de idioma personalizado. Para obtener más información, consulte Listado de modelos de lenguaje personalizado.

Para volver a crear un modelo de idioma personalizado, primero cree un nuevo modelo personalizado. A continuación, añada todos los corpus y palabras personalizadas del modelo personalizado anterior al nuevo modelo. A continuación, puede suprimir el modelo personalizado anterior. Para obtener más información, consulte Creación de un modelo de idioma personalizado.

Actualizaciones para varios modelos de próxima generación para mejorar el reconocimiento de voz

Los siguientes modelos de próxima generación se han actualizado para mejorar el reconocimiento de voz:

Modelo de telefonía para inglés de Australia (en-AU_Telephony)
Modelo de telefonía para inglés del Reino Unido (en-GB_Telephony)
Modelo multimedia para inglés de EE.UU. (en-US_Multimedia)
Modelo de telefonía para inglés de EE.UU. (en-US_Telephony)
Modelo de telefonía para español de España (es-ES_Telephony)

Para obtener más información sobre todos los modelos de próxima generación disponibles, consulte Idiomas y modelos de próxima generación.

Nuevo soporte de gramática beta para modelos de próxima generación

El soporte de gramática ya está disponible como funcionalidad beta para todos los modelos de próxima generación disponibles. Todos los modelos de próxima generación están generalmente disponibles (GA) y soportan la personalización del modelo de idioma. Para obtener más información, consulte los siguientes temas:

Para obtener más información sobre el estado del soporte de gramática para modelos de próxima generación, consulte Soporte de personalización para modelos de próxima generación.
Para obtener más información sobre gramáticas, consulte Gramáticas.

Nuevo campo custom_acoustic_model para las características soportadas

Los métodos GET /v1/models y GET /v1/models/{model_id} ahora informan si un modelo da soporte a la personalización del modelo acústico. El objeto SupportedFeatures ahora incluye un campo adicional, custom_acoustic_model, un booleano que es true para un modelo que da soporte a la personalización de modelos acústicos y false para lo demás. Actualmente, el campo es true para todos los modelos de generación anterior y false para todos los modelos de próxima generación.

Para obtener más información sobre estos métodos, consulte Listado de información sobre modelos.
Para obtener más información sobre el soporte para la personalización de modelos acústicos, consulte Soporte de idiomas para la personalización.

Vulnerabilidad de seguridad corregida

Se ha corregido la siguiente vulnerabilidad de seguridad asociada con Apache Log4j:

Boletín de seguridad: Una vulnerabilidad en Apache Log4j puede afectar a IBM Watson Speech Services Cartridge para IBM Cloud Pak for Data(CVE-2021-4428)

20 de diciembre de 2021 (Versión 1.2.x)

Importante: ya no puede instalar Speech to Text versión 1.2.x en IBM Cloud Pak for Data versión 3.5

Importante: ya no puede realizar nuevas instalaciones de Speech to Text versión 1.2.x en IBM Cloud Pak for Data versión 3.5. Solo puede instalar Speech to Text versión 4.0.x en IBM Cloud Pak for Data versión 4.x. Para obtener más información, consulte Instalación de Watson Speech to Text.

Los servicios de voz para IBM Cloud Pak for Data versión 3.5 alcanzan su fecha de finalización de soporte el 30 de abril de 2022. Se le recomienda que actualice a la versión más reciente del release 4.0.x de los servicios a la mayor brevedad posible. Para obtener más información, consulte Actualización de Watson Speech to Text.

30 de noviembre de 2021 (Versión 4.0.3)

La versión 4.0.3 ya está disponible

Speech to Text para IBM Cloud Pak for Data versión 4.0.3 ya está disponible. Esta versión da soporte a IBM Cloud Pak for Data versión 4.x y Red Hat OpenShift versiones 4.6 y 4.8. Para obtener más información sobre cómo instalar y gestionar el servicio, consulte Instalación de Watson Speech to Text.

El servidor de licencias ahora es un requisito previo obligatorio

Ahora debe instalar el servidor de licencias desde los servicios fundacionales de IBM Cloud Pak for Data. Debe instalar el servidor de licencias utilizando el contenido de YAML que se proporciona para crear un OperandRequest con los enlaces necesarios. También debe instalar el servicio de licencias en el mismo espacio de nombres que el servicio (operando), que también es donde está instalado IBM Cloud Pak for Data. Para obtener más información, consulte Instalación de Watson Speech to Text.

Nuevo soporte para la actualización in situ

El servicio ahora da soporte a la actualización in situ, basada en el operador, de la versión 4.0.0 a la versión 4.0.3. El paso de IBM Cloud Pak for Data versión 3.5 a la versión 4.0.3 sigue requiriendo el uso de programas de utilidad de migración. Para obtener más información, consulte Actualización de Watson Speech to Text.

Cambios de instalación de operador y licencia de EDB PostgreSQL

La instalación, actualización y desinstalación del operador y la licencia de Enterprise DB PostgreSQL han cambiado:

Las instrucciones para instalar el operador y la licencia de EDB PostgreSQL se incluyen ahora con los servicios fundacionales de IBM Cloud Pak for Data. Las instrucciones para instalar los servicios de voz se han actualizado en consecuencia. Para obtener más información, consulte Instalación de Watson Speech to Text.
Las instrucciones para actualizar de Speech to Text versión 4.0.0 a 4.0.3 incluyen instrucciones para desinstalar el operador EDB PostgreSQL anterior y la licencia y reinstalarlos con los servicios fundacionales de IBM Cloud Pak for Data. Para obtener más información, consulte Actualización de Watson Speech to Text.
Las instrucciones para desinstalar los servicios de voz ahora incluyen pasos para eliminar el operador y la licencia de EDB PostgreSQL que se instalaron previamente con Speech to Text. Para obtener más información, consulte Desinstalación de Watson Speech to Text.

Nueva guía para ampliar la instalación

El servicio ahora proporciona una guía actualizada sobre la ampliación de la instalación. La información incluye la especificación del número de pods, el número de CPU asignadas por pod y el número máximo de sesiones simultáneas con modelos anteriores y de próxima generación. Para obtener más información, consulte Administración de Watson Speech to Text.

Actualizaciones de línea de mandatos para programas de utilidad de importación y exportación

Los mandatos que se utilizan con los programas de utilidad de importación y exportación para los servicios de voz incluyen nuevas opciones y argumentos. Los programas de utilidad de importación y exportación también son la base para la copia de seguridad y restauración de los servicios y para la migración de IBM Cloud Pak for Data versión 3.5 a la versión 4.0.3. Para obtener más información sobre el uso de los programas de utilidad, consulte

Nueva propiedad para especificar las CPU para el entrenamiento de modelos acústicos

El microservicio de sttAMPatcher gestiona la personalización de modelos acústicos para el servicio. AM Patcher utiliza un número dedicado de CPU para gestionar solicitudes. Puede utilizar la nueva propiedad sttAMPatcher.resources.requestsCPU para aumentar el número de CPU que se dedican al manejo de solicitudes de entrenamiento de modelos acústicos por parte de AM Patcher. Esto puede ser necesario si usted experimenta anomalías de entrenamiento durante el entrenamiento de modelos acústicos. Para obtener más información, consulte Instalación de Watson Speech to Text.

Nuevos modelos de próxima generación

El servicio ahora da soporte a los siguientes nuevos modelos de idioma de próxima generación. Todos los nuevos modelos están disponibles a nivel general.

Checo: cs-CZ_Telephony. El modelo soporta la baja latencia.
Holandés de Bélgica (flamenco): nl-BE_Telephony. El modelo soporta la baja latencia.
Francés: fr-FR_Multimedia. El nuevo modelo no da soporte a la baja latencia.
Inglés de la India: en-IN_Telephony. El modelo soporta la baja latencia.
Hindi de la India: hi-IN_Telephony. El modelo soporta la baja latencia.
Japonés: ja-JP_Multimedia. El modelo no da soporte a la baja latencia.
Coreano: ko-KR_Multimedia. El modelo no da soporte a la baja latencia.
Coreano: ko-KR_Telephony. El modelo soporta la baja latencia.
Holandés de los Países Bajos: nl-NL_Telephony. El modelo soporta la baja latencia.

Para obtener más información sobre todos los modelos de próxima generación y sobre la baja latencia, consulte Idiomas y modelos de próxima generación y Baja latencia.

Actualizaciones de modelos de próxima generación

Los siguientes modelos de próxima generación se han actualizado para mejorar el reconocimiento de voz. Todos los modelos están disponibles a nivel general.

Árabe: ar-MS_Telephony. El modelo ahora da soporte a la baja latencia.
Portugués de Brasil: pt-BR_Telephony. El modelo sigue dando soporte a la baja latencia.
Inglés de Estados Unidos: en-US_Telephony. El modelo sigue dando soporte a la baja latencia.
Francés de Canadá: fr-CA_Telephony. El modelo ahora da soporte a la baja latencia.
Italiano: it-IT_Telephony. El modelo ahora da soporte a la baja latencia.

Para obtener más información sobre todos los modelos de próxima generación y sobre la baja latencia, consulte Idiomas y modelos de próxima generación y Baja latencia.

Corrección de defectos: Solución de los fallos asíncronos de HTTP

Arreglo de defecto: la interfaz HTTP asíncrona no ha podido transcribir algún audio. Además, la devolución de llamada para la solicitud ha devuelto el estado recognitions.completed_with_results en lugar de recognitions.failed. Este error se ha resuelto.

Arreglo de defectos: Mejorar los resultados de las etiquetas de los altavoces

Arreglo de defecto: cuando utiliza etiquetas de orador con modelos de próxima generación, el servicio ahora identifica el orador para todas las palabras del audio de entrada, incluidas palabras muy cortas que tienen las mismas indicaciones de fecha y hora de inicio y final.

Corrección de defectos: Actualización de los resultados provisionales y de la documentación sobre baja latencia

Arreglo de defecto: la documentación que describe las características de resultados provisionales y de baja latencia con los modelos de próxima generación se ha reescrito para obtener una mayor claridad y corrección. Para obtener más información, consulte los siguientes temas:

Corrección de defectos: Corrección de la documentación sobre multitenencia

Arreglo de defectos: El tema IBM Cloud Pak for Data Soporte de multitenencia ha indicado incorrectamente que los servicios Speech no dan soporte a multitenencia. El tema se ha actualizado para indicar que los servicios de voz dan soporte a las operaciones siguientes:

Instalar el servicio en proyectos distintos
Instalar el servicio varias veces en el mismo proyecto
Instalar el servicio una vez y desplegar varias instancias en el mismo proyecto

La documentación específica de los servicios de voz indicaba correctamente el soporte de multitenencia.

1 de octubre de 2021 (Versión 1.1.x)

La versión 1.1.x está fuera de servicio: Speech to Text y Text to Speech para IBM Cloud Pak for Data versión 1.1.x se dejaron fuera de servicio el 30 de septiembre de 2021. A partir del 1 de octubre de 2021, la documentación de la versión 1.1.x ya no está disponible. Para obtener más información, consulte Retirada de software y interrupción de soporte.

31 de agosto de 2021 (Versión 4.0.0)

Todos los modelos de próxima generación están ahora disponibles de forma general

Todos los modelos de idioma de próxima generación ahora ya están disponibles a nivel general (GA). Están soportados para su uso en entornos de producción y aplicaciones.

Para obtener más información sobre todos los modelos de idioma de próxima generación y qué modelos están actualmente disponibles para IBM Cloud Pak for Data, consulte Idiomas y modelos de próxima generación.
Para obtener más información sobre las características soportadas para cada modelo de próxima generación, consulte Características soportadas para modelos de próxima generación.

La personalización del modelo de idioma para los modelos de próxima generación ahora está disponible de forma general

La personalización del modelo de idioma ahora está disponible de forma general (GA) para todos los modelos e idiomas disponibles de la próxima generación. La personalización del modelo de idioma para los modelos de próxima generación está soportada para su uso en entornos de producción y aplicaciones.

Puede utilizar los mismos mandatos para crear, gestionar y utilizar modelos de idioma personalizado, corpus y palabras personalizadas para modelos de próxima generación como lo hace para los modelos de la generación anterior. Pero la personalización para los modelos de próxima generación funciona de forma diferente a la personalización para los modelos de la generación anterior. Para los modelos personalizados basados en modelos de próxima generación:

Los modelos personalizados no tienen ningún concepto de las palabras fuera del vocabulario (OOV).
Las palabras del corpus no se añaden al recurso de palabras.
Actualmente no puede utilizar la característica de pronunciación para las palabras personalizadas.
No es necesario actualizar los modelos personalizados cuando se actualizan los modelos de idioma base.
Actualmente, las gramáticas no están soportadas.

Para obtener más información sobre cómo utilizar la personalización del modelo de idioma para modelos de próxima generación, consulte

Los temas adicionales describen la gestión de modelos de idioma personalizado, corpus y palabras personalizadas.

29 de julio de 2021 (Versión 4.0.0)

La versión 4.0.0 está disponible

IBM Watson® Speech to Text para IBM Cloud Pak® for Data versión 4.0.0 ya está disponible. La instalación y la administración del servicio incluyen muchos cambios. Esta versión da soporte a IBM Cloud Pak for Data versión 4.x y Red Hat OpenShift versión 4.6. Para obtener más información sobre cómo instalar y gestionar el servicio, consulte Instalación de IBM Watson Speech to Text para IBM Cloud Pak for Data.

Nuevos modelos de idioma de próxima generación

El servicio ahora da soporte a un número creciente de modelos de idioma de próxima generación. Los modelos multimedia y de telefonía de próxima generación mejoran las capacidades de reconocimiento de voz de la generación anterior de modelos de servicio de banda ancha y banda estrecha. Los nuevos modelos aprovechan las redes neuronales profundas y el análisis bidireccional para lograr un mayor rendimiento y una mayor precisión de la transcripción.

En este momento, los modelos de idioma de próxima generación y el parámetro low_latency son una funcionalidad beta. Los modelos de próxima generación soportan un número limitado de idiomas y características de reconocimiento de voz. Los idiomas, modelos y características soportados aumentarán con futuros releases.

Muchos de los modelos de próxima generación también dan soporte a un nuevo parámetro low_latency que le permite solicitar resultados más rápidamente en detrimento posiblemente de reducir la calidad de la transcripción. Cuando la baja latencia está habilitada, el servicio restringe su análisis del audio, lo que puede reducir la precisión de la transcripción. Esta compensación puede ser aceptable si su aplicación requiere un tiempo de respuesta más bajo que la precisión más alta posible.

El parámetro low_latency afecta al uso del parámetro interim_results con la interfaz WebSocket. Los resultados provisionales sólo están disponibles para los modelos de próxima generación que dan soporte a una baja latencia y sólo si los parámetros interim_results y low_latency están establecidos en true.

Para obtener más información sobre los modelos de próxima generación y sus posibilidades, consulte Idiomas y modelos de próxima generación.
Para obtener más información sobre el soporte de idiomas para modelos de próxima generación y sobre qué modelos de próxima generación soportan la baja latencia, consulte Modelos de idioma de próxima generación.
Para obtener más información sobre la compatibilidad de funciones con los modelos de nueva generación, consulte Funciones compatibles con los modelos de nueva generación.
Para obtener más información sobre el parámetro low_latency, consulte Baja latencia.
Para obtener más información sobre la interacción entre los parámetros low_latency y interim_results para los modelos de próxima generación, consulte Solicitud de resultados provisionales y baja latencia.

Modelo de idioma de banda ancha para árabe renombrado

El modelo de banda ancha para árabe ahora se llama ar-MS_BroadbandModel. El nombre anterior, ar-AR_BroadbandModel, está en desuso. Continuará funcionando durante al menos un año, pero podría ser eliminado en una fecha futura. Se le anima a migrar al nuevo nombre a la mayor brevedad posible.

Documentación de Speech to Text unificada

La documentación de IBM Watson Speech to Text para IBM Cloud Pak for Data ahora se combina con la documentación para instancias gestionadas del servicio Speech to Text que están alojadas en IBM Cloud. Esto es cierto tanto en la guía como en la documentación de referencia para las dos formas del servicio. Los enlaces a la versión anteriormente separada de la documentación de IBM Cloud Pak for Data para el servicio redirigen a la documentación unificada.

Para obtener más información sobre cómo identificar información que pertenece a una sola versión del producto, consulte Acerca de Speech to Text.

Arreglo de defecto: Mejorar la documentación

Corrección de defectos: Se ha actualizado la documentación para corregir la siguiente información:

La documentación no indica que los modelos de próxima generación no producen marcadores de duda. La documentación se ha actualizado para señalar que solo los modelos de la generación anterior producen marcadores de duda. Los modelos de próxima generación incluyen las vacilaciones reales en los resultados de la transcripción. Para obtener más información, consulte Titubeos y marcadores de duda.
La documentación indicaba incorrectamente que el uso del parámetro smart_formatting hace que el servicio elimine los marcadores de duda de los resultados finales de la transcripción para japonés. El formateo inteligente no elimina los marcadores de duda de los resultados finales para el japonés, sólo para el inglés de EE.UU. Para obtener más información, consulte ¿A qué resultados afecta el formateo inteligente?

La versión 1.1.x está fuera de servicio

Speech to Text y Text to Speech para IBM Cloud Pak for Data versión 1.1.x estarán fuera de servicio el 30 de septiembre de 2021. Debe actualizar a una versión posterior de los servicios en IBM Cloud Pak for Data antes de esa fecha. A partir del 1 de octubre de 2021, la documentación de la versión 1.1.4 dejará de estar disponible.

12 de abril de 2021 (Versión 1.2.1)

Añadir al archivo speech-override.yaml

El archivo speech-override.yaml mínimo incluye una definición adicional, dockerRegistryPrefix:

global:
  dockerRegistryPrefix: "{Registry}"
  image:
    pullSecret: "{Registry_pull_secret}"

{Registry} es la vía de acceso para el registro interno de Docker. Debe ser image-registry.openshift-image-registry.svc:5000/{namespace}, donde {namespace} es el espacio de nombres en el que está instalado IBM Cloud Pak® for Data, normalmente zen.

9 de abril de 2021 (Versión 1.2.1)

Soporte para modificar modelos y voces instalados: Los servicios de voz le permiten añadir o eliminar modelos y voces instalados para la versión 1.2 o 1.2.1 de los servicios.

Versión 1.2.1 (26 de marzo de 2021)

La versión 1.2.1 está disponible

Speech to Text para IBM Cloud Pak for Data versión 1.2.1 ya está disponible. Las versiones 1.2 y 1.2.1 utilizan la misma documentación e instrucciones de instalación de la versión 1.2. La versión 1.2.1 soporta la instalación en Red Hat OpenShift versión 4.6 además de las versiones 4.5 y 3.11.

Nuevas instrucciones de instalación

Tanto para los clústeres conectados a Internet como para los clústeres aislados, las instrucciones de instalación incluyen los pasos siguientes:

Utilice el mandato oc label para configurar las etiquetas necesarias para el espacio de nombres donde está instalado IBM Cloud Pak for Data.
Utilice el mandato oc project para asegurarse de que apunta al proyecto OpenShift correcto.
Utilice el mandato cpd-cli install para instalar un servidor Enterprise DB PostgreSQL utilizado por los servicios de voz.

Realice estos pasos antes de instalar los servicios de voz.

Nuevas instrucciones de desinstalación

Se ha añadido un paso al procedimiento para desinstalar los servicios de voz para limpiar todos los recursos de la instalación.

Registro autorizado para el almacén de datos PostgreSQL

La vía de acceso de registro autorizada desde la que el servicio extrae imágenes para el almacén de datos de PostgreSQL ha cambiado. La ubicación del registro ha cambiado de cp.icr.io/cp/watson-speech a cp.icr.io/cp/cpd. Este cambio es transparente para los usuarios.

Secretos para almacenes de datos Minio y PostgreSQL

Los almacenes de datos Minio y PostgreSQL requieren los siguientes valores codificados para sus secretos:

Para Minio, utilice minio.
Para PostgreSQL, utilice user-provided-postgressql.

No puede utilizar sus propios valores para estos secretos. Los secretos deben crearse antes de instalar los servicios de voz.

Supresiones del archivo speech-override.yaml

Se han eliminado las entradas siguientes del archivo speech-override.yaml. Se añadieron para solucionar temporalmente un problema que ahora se ha arreglado.

sttRuntime:
  images:
    miniomc:
      tag:
        1.0.5
sttAMPatcher:
  images:
    miniomc:
      tag:
        1.0.5
ttsRuntime:
  images:
    miniomc:
      tag:
        1.0.5

El archivo speech-override.yaml abreviado generalmente se ha reducido aún más ajustando su contenido a los elementos básicos.

Versión 1.2 (9 de diciembre de 2020)

La versión 1.2 está disponible

Speech to Text for IBM Cloud Pak for Data versión 1.2 ya está disponible. La instalación y la administración del servicio incluyen muchos cambios. Esta versión da soporte a IBM Cloud Pak for Data versiones 3.5 y 3.0.1, y Red Hat OpenShift versiones 4.5 y 3.11.

Nuevos modelos para inglés de Australia y francés de Canadá

Ahora el servicio ofrece modelos de banda ancha y banda estrecha para inglés de Australia y francés de Canadá:

Inglés de Australia: en-AU_BroadbandModel y en-AU_NarrowbandModel
Francés de Canadá: fr-CA_BroadbandModel y fr-CA_NarrowbandModel

Los nuevos modelos están disponibles a nivel general, y dan soporte a la personalización del modelo de lenguaje y del modelo acústico.

Para obtener más información sobre los idiomas y modelos soportados, consulte Idiomas y modelos de la generación anterior.
Para obtener más información sobre el soporte de idiomas para la personalización, consulte Soporte de idiomas para la personalización.

Modelos actualizados para mejorar el reconocimiento de voz

Los siguientes modelos de lenguaje se han actualizado para mejorar el reconocimiento de voz:

Portugués de Brasil: pt-BR_BroadbandModel y pt-BR_NarrowbandModel
Francés: fr-FR_BroadbandModel
Alemán: de-DE_BroadbandModel y de-DE_NarrowbandModel
Japonés: ja-JP_BroadbandModel
Inglés del Reino Unido: en-GB_BroadbandModel y en-GB_NarrowbandModel
Inglés de Estados Unidos: en-US_ShortForm_NarrowbandModel

De forma predeterminada, el servicio utiliza automáticamente los modelos actualizados para todas las solicitudes de reconocimiento de voz. Si tiene modelos de lenguaje personalizado o acústico personalizado que se basan en estos modelos, debe actualizar los modelos personalizados existentes para aprovechar las actualizaciones mediante los métodos siguientes:

POST /v1/customizations/{customization_id}/upgrade_model
POST /v1/acoustic_customizations/{customization_id}/upgrade_model

Para obtener más información, consulte Actualización de modelos personalizados.

El parámetro split_transcript_at_phrase_end ahora ya está disponible a nivel general para todos los idiomas

El parámetro de reconocimiento de voz split_transcript_at_phrase_end ahora está disponible a nivel general para todos los idiomas. Anteriormente, solo estaba disponible a nivel general para inglés de EE.UU. y del Reino Unido. Para obtener más información, consulte División de la transcripción al final de la frase.

El marcador de duda para el alemán ha cambiado

El marcador de duda que se utiliza para la banda ancha para el alemán se ha actualizado y los modelos de banda estrecha han cambiado de [hesitation] a %HESITATION. Para obtener más información sobre los marcadores de duda, consulte Voz vacilaciones y marcadores de duda.

Corrección de defectos: Resolución del problema de latencia en modelos con un gran número de gramáticas

Arreglo de defectos: el servicio ya no tiene un problema de latencia para los modelos de idioma personalizados que contienen un gran número de gramáticas. Cuando se utilizan inicialmente para el reconocimiento de voz, estos modelos personalizados pueden tardar varios segundos en cargarse. Ahora los modelos personalizados se cargan mucho más rápido, reduciendo significativamente la latencia cuando se utilizan para el reconocimiento.

15 de julio de 2020 (Versión 1.1.4)

Red Hat OpenShift versión 4.3 está fuera de servicio: IBM Cloud Pak for Data 3.0.1 deja de dar soporte a Red Hat OpenShift 4.3 a partir del 1 de septiembre de 2020. Red Hat OpenShift 4.3 estará fuera de servicio el 22 octubre 2020. IBM Cloud Pak for Data está introduciendo soporte para Red Hat OpenShift 4.5. IBM Cloud Pak for Data recomienda que los clientes actualicen a Red Hat OpenShift 4.5 antes del 22 de octubre de 2020. El equipo de soporte de IBM trabajará con los clientes que ya tengan instalado IBM Cloud Pak for Data 3.0.1 en Red Hat OpenShift 4.3. Los nuevos clientes que quieran instalarse en Red Hat OpenShift 4.x deberán instalar Red Hat OpenShift 4.5.

19 de junio de 2020 (Versión 1.1.4)

La versión 1.1.4 está disponible

Speech to Text para IBM Cloud Pak for Data versión 1.1.4 ya está disponible. La instalación y la administración del servicio incluyen muchos cambios. Esta versión da soporte a las versiones 2.5 y 3.0.1 de IBM Cloud Pak for Data y a las versiones 3.11 y 4.3 de Red Hat OpenShift. Para más información sobre la instalación y gestión del servicio, consulte ' Instalación y gestión de " Speech to Text para " IBM Cloud Pak for Data.

Nuevos parámetros para controlar el nivel de detección de actividad del habla

Ahora el servicio ofrece dos nuevos parámetros opcionales para controlar el nivel de detección de actividad de voz. Los parámetros pueden ayudar a garantizar que solo se procese el audio relevante para el reconocimiento de voz.

El parámetro speech_detector_sensitivity ajusta la sensibilidad de la detección de actividad de voz. Puede utilizar el parámetro para suprimir las inserciones de palabras procedentes de música, tos y otros sucesos que no sean de voz.
El parámetro background_audio_suppression suprime el audio de fondo en función de su volumen para evitar que se transcriba o que interfiera de algún modo en el reconocimiento de voz. Puede utilizar el parámetro para suprimir las conversaciones secundarias o el ruido de fondo.

Puede utilizar los parámetros de forma individual o conjunta. Están disponibles para todas las interfaces y para la mayoría de los modelos de lenguaje. Para obtener más información acerca de los parámetros, sus valores permitidos y su efecto sobre la calidad y la latencia del reconocimiento de voz, consulte Detección de actividad de voz.

Nuevos modelos de banda ancha y banda estrecha para holandés e italiano

Ahora el servicio ofrece modelos de banda ancha y de banda estrecha para los idiomas holandés e italiano:

Modelo de banda ancha holandés (nl-NL_BroadbandModel)
Modelo de banda estrecha holandés (nl-NL_NarrowbandModel)
Modelo de banda ancha italiano (it-IT_BroadbandModel)
Modelo de banda estrecha italiano (it-IT_NarrowbandModel)

Los modelos de los idiomas holandés e italiano están actualmente disponibles a nivel general (GA) para el reconocimiento de voz y para la personalización del modelo de lenguaje y del modelo acústico. Para obtener más información sobre todos los modelos de lenguaje disponibles, consulte

Soporte para el parámetro speaker_labels para alemán y coreano

Ahora el servicio da soporte a las etiquetas de orador (el parámetro speaker_labels) para los modelos en los idiomas alemán y coreano. Las etiquetas de orador identifican qué persona ha pronunciado cada palabra en un intercambio con varios participantes. Para obtener más información, consulte Etiquetas de orador.

Reconocimiento de voz mejorado para el modelo de banda estrecha para japonés

El modelo de banda estrecha japonés (ja-JP_NarrowbandModel) ahora incluye algunas unidades de palabras multigramo para dígitos y fracciones decimales. El servicio devuelve estas unidades multigramo independientemente de si ha habilitado el formateo inteligente. La característica de formateo inteligente entiende y devuelve las unidades multigramo que genera el modelo. Si aplica su propio postproceso a los resultados de la transcripción, deberá manejar estas unidades adecuadamente. Para obtener más información, consulte Japonés en la documentación de formateo inteligente.

Copia de seguridad y restauración simplificadas

Ahora el servicio ofrece mejores procedimientos de copia de seguridad y restauración. Ahora dispone de programas de utilidad para hacer copia de seguridad de los datos de los almacenes de datos, por lo que ya no es necesario volver a crear todos los datos en caso de desastre. Para obtener más información, Copia de seguridad y restauración de Watson Datos de servicios de voz.

1 de abril de 2020 (Versión 1.1.3)

La personalización de modelos acústicos ya está disponible a nivel general: La personalización del modelo acústico ahora está disponible a nivel general (GA) para todos los idiomas soportados. Para obtener más información sobre el soporte de modelos de lenguaje individuales, consulte Soporte de idiomas para la personalización.

28 de febrero de 2020 (Versión 1.1.3)

La versión 1.1.3 está disponible

Speech to Text para IBM Cloud Pak for Data versión 1.1.3 ya está disponible.

Nuevo parámetro end_of_phrase_silence_time

Para el reconocimiento de voz, ahora el servicio da soporte al parámetro end_of_phrase_silence_time. El parámetro especifica la duración del intervalo de pausa en el que el servicio divide una transcripción en varios resultados finales. Cada resultado final indica una pausa o un silencio largo que supera el intervalo de pausa. En el caso de la mayoría de los idiomas, el intervalo de pausa predeterminado es de 0,8 segundos; en el caso del chino, el intervalo es de 0,6 segundos.

Puede utilizar el parámetro establecer un equilibrio entre la frecuencia con la que se genera un resultado final y la precisión de la transcripción. Aumente el intervalo cuando la precisión sea más importante que la latencia. Reduzca el intervalo cuando se espere que el orador pronuncie frases cortas o respuestas de una sola palabra.

Para obtener más información, consulte Tiempo de silencio de fin de frase.

Nuevo parámetro split_transcript_at_phrase_end

Para el reconocimiento de voz, ahora el servicio da soporte al parámetro split_transcript_at_phrase_end. El parámetro indica al servicio que divida la transcripción en varios resultados finales en función de las características semánticas de la entrada. El servicio basa su comprensión de las características semánticas en el modelo de lenguaje base que utilice con una solicitud. Los modelos de lenguaje personalizado y las gramáticas también afectan a la forma en que el servicio divide una transcripción.

El parámetro hace que el servicio añada un campo end_of_utterance a cada resultado final para indicar el objetivo de la división: full_stop, silence, end_of_data o reset.

Para obtener más información, consulte División de la transcripción al final de la frase.

Parámetro speaker_labels mejorado

Para el reconocimiento de voz, el parámetro speaker_labels se ha actualizado para mejorar la identificación de los oradores individuales para un análisis adicional de la muestra de audio. Para obtener más información acerca de la característica de etiquetas de orador, consulte Etiquetas de orador. Para más información sobre las mejoras de la función, consulte IBM Research AI Advances Speaker Diarization in Real Use Cases.

27 de noviembre de 2019 (Versión 1.1.2)

La versión 1.1.2 está disponible: Speech to Text para IBM Cloud Pak for Data versión 1.1.2 ya está disponible.
Número máximo de modelos personalizados: No puede crear más de 1024 modelos de lenguaje personalizado y no más de 1024 modelos acústicos personalizados por credencial de propietario. Para obtener más información, consulte Número máximo de modelos personalizados.

30 de agosto de 2019 (Versión 1.0.1)

La versión 1.0.1 está disponible

Speech to Text para IBM Cloud Pak for Data versión 1.0.1 ya está disponible. Ahora el servicio funciona con la versión 2.1.0.1 de IBM Cloud Pak for Data. El servicio ahora da soporte a la instalación de IBM Cloud Pak for Data con Red Hat OpenShift.

Nuevos modelos de banda ancha y banda estrecha para dialectos de español

El servicio ahora ofrece modelos de lenguajes de banda ancha y banda estrecha en seis dialectos del español:

Español argentino (es-AR_BroadbandModel y es-AR_NarrowbandModel)
Español castellano (es-ES_BroadbandModel y es-ES_NarrowbandModel)
Español chileno (es-CL_BroadbandModel y es-CL_NarrowbandModel)
Español colombiano (es-CO_BroadbandModel y es-CO_NarrowbandModel)
Español mexicano (es-MX_BroadbandModel y es-MX_NarrowbandModel)
Español peruano (es-PE_BroadbandModel y es-PE_NarrowbandModel)

Los modelos de español castellano no son nuevos. Suelen estar disponibles para el reconocimiento de voz y la personalización del modelo de lenguaje, y las versiones beta para la personalización del modelo acústico.

Los modelos de los otros cinco dialectos son nuevos y son versiones beta para todos los usos. Puesto que son versiones beta, puede que estos dialectos adicionales no estén listos para su uso en producción y sujetos a cambios. Se trata de ofertas iniciales que se espera que mejoren la calidad por lo que hace al tiempo y al uso.

Para obtener más información, consulte las secciones siguientes:

Soporte de FISMA

El soporte de Federal Information Security Management Act (FISMA) ya está disponible para Speech to Text para IBM Cloud Pak for Data. El servicio es FISMA High Ready.

28 de junio de 2019 (Versión 1.0.0)

La versión 1.0.0 está disponible

La versión 1.0.0, el release inicial del servicio, ya está disponible. Speech to Text para IBM Cloud Pak for Data se basa en el servicio IBM Watson® Speech to Text de IBM Cloud público. Speech to Text para IBM Cloud Pak for Data difiere del servicio de Speech to Text público de las siguientes maneras. Es posible que encuentre útil esta información si está familiarizado con el servicio Speech to Text en IBM Cloud público.

Speech to Text for IBM Cloud Pak for Data utiliza señales de acceso para la autenticación. Para obtener más información, consulte la Referencia de API y SDK.
Los puntos finales de Speech to Text for IBM Cloud Pak for Data son específicos del clúster de IBM Cloud Pak for Data. Para obtener más información, consulte la Referencia de API y SDK.
Speech to Text for IBM Cloud Pak for Data no efectúa ningún registro de solicitudes. No es necesario que utilice la cabecera de solicitud X-Watson-Learning-Opt-Out.
Speech to Text for IBM Cloud Pak for Data no da soporte a señales Watson. No puede utilizar la cabecera de solicitud X-Watson-Authorization-Token para autenticarse con el servicio.