Notas del release de Speech to Text para IBM Cloud Pak for Data
IBM Cloud Pak for Data
Se incluyeron las siguientes características y cambios para cada release y actualización de las instancias instaladas o locales de IBM Watson® Speech to Text para IBM Cloud Pak for Data. A menos que se indique lo contrario, todos los cambios son compatibles con releases anteriores y están disponibles de forma automática y transparente para todas las aplicaciones nuevas y existentes.
Para obtener información sobre las limitaciones conocidas del servicio, consulte Limitaciones conocidas.
Para obtener información sobre releases y actualizaciones del servicio para IBM Cloud, consulte Notas del release de Speech to Text for IBM Cloud.
30 de octubre de 2024 (Versión 4.8.7 )
- Ya está disponible la versión 4.8.7
- Speech to Text para IBM Cloud Pak for Data versión 4.8.7 ya está disponible. Para más información, consulte Watson Servicios de voz en IBM Cloud Pak for Data.
25 de septiembre de 2024 (Versión 5.0.3 )
- Ya está disponible la versión 5.0.3
- Speech to Text para IBM Cloud Pak for Data versión 5.0.3 ya está disponible. Para más información, consulte Watson Servicios de voz en IBM Cloud Pak for Data.
28 de agosto de 2024 (Versión 4.8.6 )
- Ya está disponible la versión 4.8.6
- Speech to Text para IBM Cloud Pak for Data versión 4.8.6 ya está disponible. Para más información, consulte Watson Servicios de voz en IBM Cloud Pak for Data.
28 de agosto de 2024 (Versión 5.0.2 )
- Ya está disponible la versión 5.0.2
- Speech to Text para IBM Cloud Pak for Data versión 5.0.2 ya está disponible. Para más información, consulte Watson Servicios de voz en IBM Cloud Pak for Data.
31 de julio de 2024 (Versión 5.0.1 )
- Ya está disponible la versión 5.0.1
- Speech to Text para IBM Cloud Pak for Data versión 5.0.1 ya está disponible. Para más información, consulte Watson Servicios de voz en IBM Cloud Pak for Data.
19 de junio de 2024 (Versión 5.0.0 )
- Ya está disponible la versión 5.0.0
- Speech to Text para IBM Cloud Pak for Data versión 5.0.0 ya está disponible. Para más información, consulte Watson Servicios de voz en IBM Cloud Pak for Data.
24 de abril de 2024 (Versión 4.8.5 )
- Ya está disponible la versión 4.8.5
- Speech to Text para IBM Cloud Pak for Data versión 4.8.5 ya está disponible. Para más información, consulte Watson Servicios de voz en IBM Cloud Pak for Data.
27 de marzo de 2024 (Versión 4.8.4 )
- Ya está disponible la versión 4.8.4
- Speech to Text para IBM Cloud Pak for Data versión 4.8.4 ya está disponible. Para más información, consulte Watson Servicios de voz en IBM Cloud Pak for Data.
28 de febrero de 2024 (Versión 4.8.3 )
- Ya está disponible la versión 4.8.3
- Speech to Text para IBM Cloud Pak for Data versión 4.8.3 ya está disponible. Para más información, consulte Watson Servicios de voz en IBM Cloud Pak for Data.
31 de enero de 2024 (Versión 4.8.2 )
- Ya está disponible la versión 4.8.2
- Speech to Text para IBM Cloud Pak for Data versión 4.8.2 ya está disponible. Para más información, consulte Watson Servicios de voz en IBM Cloud Pak for Data.
30 de noviembre de 2023 (Versión 4.8.0 )
- Ya está disponible la versión 4.8.0
- Speech to Text para IBM Cloud Pak for Data versión 4.8.0 ya está disponible. Para más información, consulte Watson Servicios de voz en IBM Cloud Pak for Data.
27 de septiembre de 2023 (Versión 4.7.3 )
- Ya está disponible la versión 4.7.3
- Speech to Text para IBM Cloud Pak for Data versión 4.7.3 ya está disponible. Para más información, consulte Watson Servicios de voz en IBM Cloud Pak for Data.
28 de julio de 2023 (Versión 4.7.1 )
- Ya está disponible la versión 4.7.1
- Speech to Text para IBM Cloud Pak for Data versión 4.7.1 ya está disponible. Para más información, consulte Watson Servicios de voz en IBM Cloud Pak for Data.
9 de junio de 2023 (Versión 4.7.0 )
- Ya está disponible la versión 4.7.0
- Speech to Text para IBM Cloud Pak for Data versión 4.7.0 ya está disponible. Para más información, consulte Watson Servicios de voz en IBM Cloud Pak for Data.
2 de mayo de 2023 (Versión 4.6.5)
- Ya está disponible la versión 4.6.5
-
Speech to Text para IBM Cloud Pak for Data versión 4.6.5 ya está disponible. Esta versión es compatible con IBM Cloud Pak for Data versión 4.6.x y Red Hat OpenShift versiones 4.10 y 4.12. Para más información, consulte Watson Servicios de voz en IBM Cloud Pak for Data.
- Nuevo modelo japonés de telefonía de nueva generación
-
El servicio ofrece ahora un modelo de telefonía de nueva generación para japoneses:
ja-JP_Telephony
. El nuevo modelo soporta la baja latencia y está a disposición general. También es compatible con las gramáticas y la personalización del modelo de idioma. Para más información sobre los modelos de nueva generación y baja latencia, consulte: - Personalización mejorada del modelo de idioma para modelos en inglés y japonés de próxima generación
-
El servicio ahora proporciona una personalización mejorada del modelo de idioma para los modelos en inglés y japonés de próxima generación:
en-AU_Multimedia
en-AU_Telephony
en-IN_Telephony
en-GB_Multimedia
en-GB_Telephony
en-US_Multimedia
en-US_Telephony
ja-JP_Multimedia
ja-JP_Telephony
Mejoras visibles en los modelos: la nueva tecnología mejora el comportamiento predeterminado de los nuevos modelos en inglés y japonés. Entre otros cambios, la nueva tecnología optimiza el comportamiento predeterminado para los siguientes parámetros:
- El
customization_weight
predeterminado para los modelos personalizados que se basan en las nuevas versiones de estos modelos cambia de0.2
a0.1
. - La dirección
character_insertion_bias
por defecto para los modelos personalizados que se basan en las nuevas versiones de estos modelos sigue siendo0.0
, pero los modelos han cambiado, lo que hace que el parámetro para el reconocimiento de voz sea menos necesario.
Actualización a los nuevos modelos: Para aprovechar la tecnología mejorada, debe actualizar los modelos de lenguaje personalizados que se basan en los nuevos modelos. Para pasar a la nueva versión de uno de estos modelos básicos:
-
Cambie el modelo personalizado añadiendo o modificando una palabra, corpus o gramática personalizada que contenga el modelo. Cualquier cambio que realice mueve el modelo al estado
ready
. -
Utilice el método
POST /v1/customizations/{customization_id}/train
para volver a entrenar el modelo. Volver a entrenar actualiza el modelo personalizado a la nueva tecnología y mueve el modelo al estadoavailable
.Problema conocido: Actualmente, no se puede utilizar el método
POST /v1/customizations/{customization_id}/upgrade_model
para actualizar un modelo personalizado a uno de los nuevos modelos base. Este problema se abordará en una próxima versión.
Utilización de los nuevos modelos: Después de la actualización al nuevo modelo base, se le recomienda que evalúe el rendimiento del modelo personalizado actualizado prestando especial atención a los parámetros
customization_weight
ycharacter_insertion_bias
para el reconocimiento de voz. Cuando vuelva a entrenar el modelo personalizado:- El modelo personalizado utiliza el nuevo
customization_weight
predeterminado de0.1
para el modelo personalizado. Se elimina uncustomization_weight
no predeterminado que estaba asociado a su modelo personalizado. - Es posible que el modelo personalizado ya no requiera el uso del parámetro
character_insertion_bias
para un reconocimiento óptimo del habla.
Las mejoras en la personalización del modelo de lenguaje hacen que estos parámetros sean menos importantes para el reconocimiento de voz de alta calidad:
- Si utiliza los valores predeterminados para estos parámetros, continúe haciéndolo después de la actualización. Los valores por defecto seguirán ofreciendo los mejores resultados para el reconocimiento de voz.
- Si especifica valores no predeterminados para estos parámetros, experimente con los valores predeterminados tras la actualización. El modelo personalizado puede funcionar bien para el reconocimiento de voz con los valores predeterminados.
Si cree que el uso de valores diferentes para estos parámetros puede mejorar el reconocimiento de voz con el modelo personalizado, experimente con cambios incrementales para determinar si los parámetros son necesarios para mejorar el reconocimiento de voz.
Nota: actualmente, las mejoras en la personalización de los modelos lingüísticos sólo se aplican a los modelos personalizados basados en los modelos lingüísticos básicos en inglés o japonés de nueva generación mencionados anteriormente. Con el tiempo, las mejoras estarán disponibles para otros modelos de lenguaje de próxima generación.
Más información: Para obtener más información sobre la actualización y sobre el reconocimiento de voz con estos parámetros, consulte:
- Nueva variable de entorno para el recurso personalizado de servicios Speech
-
La documentación ahora incluye instrucciones para crear una variable de entorno denominada
${CUSTOM_RESOURCE_SPEECH}
. Añada la nueva variable al scriptcpd_vars.sh
y cree el origen del script para utilizar la variable en el entorno. Para obtener más información, consulte Información que necesita para completar esta tarea en Instalación de servicios de voz de Watson, o consulte cualquiera de los temas de actualización para los servicios de voz. - Arreglo de defectos: Los modelos de telefonía sueca e italiano multimedia ya están disponibles
-
Arreglo de defectos: Los modelos de telefonía sueca (
sv-SE_Telephony
) y multimedia italiana (it-IT_Multimedia
) están ahora disponibles para su instalación. Anteriormente, no estaban disponibles. - Arreglo de defectos: Tiempo de entrenamiento mejorado para modelos de lenguaje personalizado de próxima generación
-
Arreglo de defectos: El tiempo de entrenamiento para los modelos de lenguaje personalizado de próxima generación ahora ha mejorado significativamente. Anteriormente, el tiempo de entrenamiento tardaba mucho más de lo necesario, como se informó para el entrenamiento de modelos de lenguaje personalizado japonés. El problema se ha corregido mediante un arreglo interno.
- Arreglo de defecto: los archivos de gramática ahora manejan series de dígitos correctamente
-
Arreglo de defectos: cuando se utilizan gramáticas, el servicio ahora maneja correctamente series más largas de dígitos. Anteriormente, no se podía completar el reconocimiento o devolver resultados incorrectos.
- Arreglo de defectos: los archivos de gramática generados dinámicamente ahora funcionan correctamente
-
Arreglo de defectos: Los archivos de gramática generados dinámicamente ahora funcionan correctamente. Anteriormente, los archivos de gramática dinámica podían provocar anomalías internas, tal como se notificaba para la integración de Speech to Text con IBM® watsonx™ Assistant. El problema se ha corregido mediante un arreglo interno.
- Arreglo de defectos: el formato inteligente para las fechas en inglés de EE.UU. ahora es correcto
-
Arreglo de defectos: el formato inteligente ahora incluye correctamente los días de la semana y las fechas en las que ambos están presentes en el audio hablado, por ejemplo,
Tuesday February 28
. Anteriormente, en algunos casos se omitía el día de la semana y la fecha se presentaba de forma incorrecta. El formateo inteligente es una funcionalidad beta. - Arreglo de defectos: actualizar documentación para palabras de vacilación de voz para modelos de próxima generación
-
Corrección de defectos: Se actualiza la documentación de las palabras de vacilación del habla para los modelos de nueva generación. Se proporcionan más detalles sobre las palabras de vacilación en inglés y japonés de Estados Unidos. Los modelos de próxima generación incluyen las palabras de duda reales en los resultados de transcripción, a diferencia de los modelos de generación anterior, que incluyen sólo marcadores de duda. Para obtener más información, consulte Titubeos y marcadores de duda.
- Vulnerabilidades de seguridad abordadas
-
Se han corregido las siguientes vulnerabilidades de seguridad:
- Boletín de seguridad: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data es vulnerable a una denegación de servicio en Python(CVE-2020-10735)
- Boletín de seguridad: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data es vulnerable a ataques de phishing en Python(CVE-2021-28861)
- Boletín de seguridad: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data es vulnerable a una denegación de servicio en Pypa Setuptools(CVE-2022-40897)
- Boletín de seguridad: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data es vulnerable a una exposición de información confidencial en systemd(CVE-2022-4415)
- Boletín de seguridad: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data es vulnerable a una denegación de servicio en Python(CVE-2022-45061)
- Boletín de seguridad: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data es vulnerable a la ejecución de código arbitrario en Libksba(CVE-2022-47629)
- Boletín de seguridad: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data es vulnerable a un desbordamiento de almacenamiento intermedio basado en almacenamiento dinámico en GNU Tar(CVE-2022-48303)
- Boletín de seguridad: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data es vulnerable a una denegación de servicio en FasterXML jackson-databind(CVE-2022-42003)
- Boletín de seguridad: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data es vulnerable a la ejecución arbitraria de código en Perl(CVE-2020-10878)
- Boletín de seguridad: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data es vulnerable a una omisión de restricciones de seguridad en Apache Tomcat(CVE-2022-45143)
- CVE-2020-10543: Está pendiente la publicación del boletín de seguridad.
29 de marzo de 2023 (Versión 4.6.4)
- Ya está disponible la versión 4.6.4
- Speech to Text para IBM Cloud Pak for Data versión 4.6.4 ya está disponible. Esta versión es compatible con IBM Cloud Pak for Data versión 4.6.x y Red Hat OpenShift versiones 4.10 y 4.12. Para más información, consulte Watson Servicios de voz en IBM Cloud Pak for Data.
- Importante: Haz una copia de seguridad de tus datos antes de actualizar a la versión 4.6.3 o 4.6.4
- Importante: Antes de actualizar a los servicios de Watson Speech versión 4.6.3 o 4.6.4, debe hacer una copia de seguridad de sus datos. Conserve la copia de seguridad en una ubicación segura. Para obtener más información sobre cómo realizar copias de seguridad de los datos de los servicios Watson Speech, consulte Realizar copias de seguridad y restaurar los datos de los servicios Watson Speech en Administrar los servicios Watson Speech. Este tema también incluye información sobre la restauración de los datos si es necesario.
- Problema conocido: La telefonía sueca y los modelos multimedia italianos aún no están disponibles
- Problemas conocidos: Los modelos de telefonía sueco (
sv-SE_Telephony
) y multimedia italiano (it-IT_Multimedia
) aún no están disponibles. Están disponibles desde la versión 4.6.5. - Arreglo de defectos: Ahora puede cambiar los modelos y voces instalados con las opciones de instalación avanzadas
- Arreglo de defectos: durante la instalación, ahora puede especificar diferentes modelos o voces con las opciones de instalación avanzadas de la interfaz de línea de mandatos. Anteriormente, el servicio siempre instalaba los modelos y voces predeterminados. La limitación sigue aplicándose para Watson Speech Services versiones 4.6.0, 4.6.2y 4.6.3. Para obtener información sobre la instalación de modelos y voces, consulte Especificación de opciones de instalación adicionales en Instalación de servicios de Watson Speech.
- Establecimiento de tiempos de espera excedidos del equilibrador de carga
- Los servicios de voz de Watson requieren que cambie los valores de tiempo de espera del equilibrador de carga para el servidor y el cliente a 300 segundos. Estos valores garantizan que las solicitudes de reconocimiento de voz de larga ejecución, aquellas con audio largo o difícil, tengan tiempo suficiente para completarse. Para obtener más información, consulte Información que necesita para completar esta tarea en Instalación de servicios de voz de Watson.
- Vulnerabilidades de seguridad abordadas
- Se han corregido las siguientes vulnerabilidades de seguridad:
- Boletín de seguridad: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data es vulnerable a los scripts entre sitios en GNOME libxml2(CVE-2016-3709
- Boletín de seguridad: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data es vulnerable a una denegación de servicio en SQlite(CVE-2020-35525)
- Boletín de seguridad: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data es vulnerable a una omisión de restricciones de seguridad en Amazon AWS S3 Crypto SDK for GoLang(CVE-2020-8912)
- Boletín de seguridad: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data es vulnerable a privilegios elevados del sistema en la compilación Red Hat de OpenJDK(CVE-2021-20264)
- Boletín de seguridad: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data es vulnerable a una ejecución de código arbitrario en e2fsprogs(CVE-2022-1304)
- Boletín de seguridad: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data es vulnerable a errores en TrustCor(CVE-2022-23491)
- Boletín de seguridad: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data es vulnerable a una denegación de servicio en GnuTLS(CVE-2022-2509)
- Boletín de seguridad: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data es vulnerable a una ejecución de código arbitrario en systemd(CVE-2022-2526)
- Boletín de seguridad: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data es vulnerable a la exposición de información confidencial en AWS SDK for Go(CVE-2022-2582)
- Boletín de seguridad: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data es vulnerable a la denegación de servicio en cURL libcurl(CVE-2022-32206)
- Boletín de seguridad: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data es vulnerable a un ataque de intermediario en cURL libcurl(CVE-2022-32208)
- Boletín de seguridad: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data es vulnerable a ataques de suplantación en GnuPG(CVE-2022-34903)
- Boletín de seguridad: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data es vulnerable a una denegación de servicio en SQLite(CVE-2022-35737)
- Boletín de seguridad: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data es vulnerable a un desbordamiento de almacenamiento intermedio basado en almacenamiento dinámico en zlib(CVE-2022-37434)
- Boletín de seguridad: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data es vulnerable a una denegación de servicio en systemd(CVE-2022-3821)
- Boletín de seguridad: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data es vulnerable a una ejecución de código arbitrario en Gnome libxml2(CVE-2022-40303)
- Boletín de seguridad: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data es vulnerable a una ejecución de código arbitrario en Gnome libxml2(CVE-2022-40304)
- Boletín de seguridad: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data es vulnerable a una denegación de servicio en Python Charmers Future(CVE-2022-40899)
- Boletín de seguridad: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data es vulnerable a una omisión de restricciones de seguridad en Golang Go(CVE-2022-41716)
- Boletín de seguridad: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data es vulnerable a una denegación de servicio en Golang Go(CVE-2022-41717)
- Boletín de seguridad: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data es vulnerable a una denegación de servicio en Freedesktop D-Bus(CVE-2022-42010)
- Boletín de seguridad: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data es vulnerable a una denegación de servicio en Freedesktop D-Bus(CVE-2022-42011)
- Boletín de seguridad: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data es vulnerable a una denegación de servicio en Freedesktop D-Bus(CVE-2022-42012)
- Boletín de seguridad: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data es vulnerable a una denegación de servicio en MIT krb5(CVE-2022-42898)
- Boletín de seguridad: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data es vulnerable a una denegación de servicio en libexpat(CVE-2022-43680)
- Boletín de seguridad: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data es vulnerable a una ejecución de mandatos arbitrarios en Python(CVE-2015-20107)
- Boletín de seguridad: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data es vulnerable a la ejecución de código arbitrario en SQlite(CVE-2020-35527)
- Boletín de seguridad: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data es vulnerable a una omisión de restricciones de seguridad en GNU Libtasn1(CVE-2021-46848)
- Boletín de seguridad: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data es vulnerable a la ejecución de código arbitrario en Git(CVE-2022-23521)
- Boletín de seguridad: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data es vulnerable a la ejecución de código arbitrario en GnuPG Libksba(CVE-2022-3515)
- Boletín de seguridad: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data es vulnerable a una ejecución de código arbitrario en libexpat(CVE-2022-40674)
- Boletín de seguridad: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data es vulnerable a la ejecución arbitraria de código en Git(CVE-2022-41903)
23 de febrero de 2023 (Versión 4.6.3)
- Ya está disponible la versión 4.6.3
-
Speech to Text para IBM Cloud Pak for Data versión 4.6.3 ya está disponible. Esta versión es compatible con IBM Cloud Pak for Data versión 4.6.x y Red Hat OpenShift versión 4.10. Red Hat OpenShift versión 4.8 ya no está soportado. Para más información, consulte Watson Servicios de voz en IBM Cloud Pak for Data.
- Importante: Todos los modelos de generación anterior están en desuso y llegarán al final del servicio el 31 de julio de 2023
-
Importante: Todos los modelos de generación anterior están en desuso y llegarán al final del servicio a partir del 31 de julio de 2023. En esa fecha, todos los modelos de generación anterior se eliminarán del servicio y de la documentación. La fecha de desuso anterior era el 3 de marzo de 2023. La nueva fecha permite a los usuarios más tiempo para migrar a los modelos de próxima generación adecuados. Pero los usuarios deben migrar al modelo de próxima generación equivalente antes del 31 de julio de 2023.
La mayoría de los modelos de generación anterior quedaron en desuso el 15 de marzo de 2022. Anteriormente, los modelos árabe y japonés no estaban en desuso. Ahora la característica en desuso se aplica a todos los modelos de generación anterior.
- Para obtener más información sobre los modelos de próxima generación a los que puede migrar desde cada uno de los modelos en desuso, consulte Idiomas y modelos de la generación anterior
- Para obtener más información sobre la migración de modelos de la generación anterior a modelos de la próxima generación, consulte Migración a modelos de próxima generación.
- Para obtener más información sobre todos los modelos de próxima generación, consulte Idiomas y modelos de próxima generación
Nota: Cuando se retire del servicio el modelo
en-US_BroadbandModel
de la generación anterior, el modeloen-US_Multimedia
de la generación siguiente se convertirá en el modelo predeterminado para las solicitudes de reconocimiento de voz. - Problema conocido: No puede cambiar los modelos y voces instalados con las opciones de instalación avanzadas
-
Problema conocido: Actualmente no puede especificar diferentes modelos o voces con las opciones de instalación avanzadas. El servicio siempre instala los modelos y voces predeterminados. Para obtener información sobre cómo cambiar los modelos después de la instalación, consulte Actualización de modelos y voces para los servicios de voz de Watson en el tema Administración de Watson Servicios de voz en IBM Cloud Pak for Data.
- Problema conocido: la actualización a la versión 4.6.3 puede no completarse
-
Problema conocido: Al actualizar a la versión 4.6.3, el trabajo de copia de seguridad MinIO no se puede suprimir al finalizar. Si esto sucede, la solución es suprimir el trabajo, después del cual la actualización continúa normalmente. Realice los siguientes pasos para resolver el problema.
-
Para determinar si el trabajo de copia de seguridad MinIO permanece sin suprimir, emita el mandato siguiente:
oc get job --namespace {${PROJECT_CPD_INSTANCE} | grep speech-cr-ibm-minio-backup
El trabajo MinIO que no se suprime se identifica mediante una entrada con el formato siguiente:
speech-cr-ibm-minio-backup 1/1 3m25s 1d
-
Para suprimir el trabajo de copia de seguridad MinIO, emita el mandato siguiente:
oc delete job speech-cr-ibm-minio-backup --namespace ${PROJECT_CPD_INSTANCE}
Una vez suprimido el trabajo de copia de seguridad, la actualización continúa y se completa.
-
- Arreglo de defecto: Actualizar modelo de telefonía de próxima generación francés canadiense (se requiere actualización)
-
Arreglo de defectos: el modelo de telefonía de próxima generación de Canadá,
fr-CA_Telephony
, se ha actualizado para abordar una incoherencia interna que podría provocar un error durante el reconocimiento de voz. Es necesario actualizar los modelos personalizados que se basan en el modelofr-CA_Telephony
. Para obtener más información sobre la actualización de modelos personalizados, consulte - Arreglo de defectos: El modelo multimedia portugués de la próxima generación ya está disponible
-
Arreglo de defectos: El modelo multimedia en portugués de Brasil de próxima generación está ahora disponible para Speech to Text para IBM Cloud Pak for Data. Anteriormente, el modelo no estaba disponible.
- La adición de palabras directamente a modelos personalizados que se basan en modelos de próxima generación aumenta el tiempo de entrenamiento
-
La adición de palabras personalizadas directamente a un modelo personalizado que se basa en un modelo de próxima generación hace que el entrenamiento de un modelo tarde unos minutos más de lo que lo haría de otro modo. Si está entrenando un modelo con palabras personalizadas que ha añadido utilizando el método
POST /v1/customizations/{customization_id}/words
oPUT /v1/customizations/{customization_id}/words/{word_name}
, espere unos minutos de tiempo de entrenamiento adicional para el modelo. Para obtener más información, consulte - Información adicional sobre cómo trabajar con instancias de servicio
-
La documentación ahora incluye información sobre la creación de una instancia de servicio con la interfaz de línea de mandatos (
cpl-cli
) y sobre la gestión de instancias de servicio. Para obtener más información, consulte los temas siguientes de Watson Servicios de voz en IBM Cloud Pak for Data:- Creación de una instancia de servicios de voz de Watson en Configuración posterior a la instalación
- Gestión de las instancias de servicios de voz de Watson en Administración
- Vulnerabilidad de seguridad corregida
-
Se ha corregido la siguiente vulnerabilidad de seguridad:
30 de enero de 2023 (Versión 4.6.2)
- Ya está disponible la versión 4.6.2
-
Speech to Text para IBM Cloud Pak for Data versión 4.6.2 ya está disponible. Esta versión es compatible con IBM Cloud Pak for Data versión 4.6.x y Red Hat OpenShift versiones 4.8 y 4.10. Para más información, consulte Watson Servicios de voz en IBM Cloud Pak for Data.
- El recurso personalizado ahora incluye una nueva propiedad
fileStorageClass
-
El recurso personalizado para los servicios de voz de Watson ahora incluye una propiedad
fileStorageClass
además de la propiedadblockStorageClass
existente. Las clases de almacenamiento de bloques y de archivos se especifican al instalar o actualizar un servicio. Durante la actualización desde una versión anterior, la nueva propiedad se añade automáticamente al recurso personalizado mediante la opción--file_storage_class
en el mandatocli manage apply-cr
.Para obtener más información sobre las clases de almacenamiento de bloques y archivos disponibles que utiliza con cada una de las soluciones de almacenamiento soportadas, consulte la tabla de Requisitos de almacenamiento en Información que necesita para completar esta tarea en la página "Instalación de servicios de voz de Watson " en Watson Servicios de voz en IBM Cloud Pak for Data.
- Información adicional sobre el suministro de una instancia de servicio
-
La documentación ahora incluye información sobre la creación de una instancia de servicio mediante programación. También incluye ejemplos de listado de instancias de servicio y supresión de una instancia de servicio. Para obtener más información, consulte Creación de una instancia de servicios de voz de Watson en la documentación de Configuración posterior a la instalación en Watson Servicios de voz en IBM Cloud Pak for Data.
- El cifrado del lado del servidor está habilitado para el almacén de datos MinIO
-
Los servicios de voz ahora han habilitado el cifrado del lado del servidor para el almacenamiento de objetos en el almacén de datos MinIO. No es necesaria ninguna acción por su parte.
- Cambiar a webhooks de auditoría
-
Los servicios de voz han eliminado ahora la dependencia de webhook de auditoría. Los servicios ahora escriben sucesos de auditoría directamente en el servidor. Después de actualizar a la versión 4.6.2, es posible que algunos recursos de webhook permanezcan hasta que todos los servicios puedan eliminar la dependencia. Los recursos restantes se eliminarán en un release futuro. No es necesaria ninguna acción por su parte.
- Nuevo modelo multimedia holandés de próxima generación
-
El servicio ofrece ahora un modelo multimedia de nueva generación para el neerlandés de los Países Bajos:
nl-NL_Multimedia
. El nuevo modelo soporta la baja latencia y está a disposición general. También es compatible con las gramáticas y la personalización del modelo de idioma. Para más información sobre los modelos de nueva generación y baja latencia, consulte - Nuevo modelo sueco de telefonía de nueva generación
-
El servicio ofrece ahora un modelo de telefonía de nueva generación para suecos:
sv-SE_Telephony
. El nuevo modelo soporta la baja latencia y está a disposición general. También es compatible con las gramáticas y la personalización del modelo de idioma. Para más información sobre los modelos de nueva generación y baja latencia, consulte - Actualizaciones de los modelos ingleses de telefonía de nueva generación
-
Los modelos ingleses de telefonía de nueva generación se han actualizado para mejorar el reconocimiento de voz:
en-AU_Telephony
en-GB_Telephony
en-IN_Telephony
en-US_Telephony
Todos estos modelos siguen soportando una baja latencia. No es necesario actualizar modelos personalizados basados en estos modelos. Para obtener más información sobre todos los modelos de próxima generación disponibles, consulte Idiomas y modelos de próxima generación.
- El parámetro
max_alternatives
ahora está disponible para su uso con modelos de próxima generación -
El parámetro
max_alternatives
ahora está disponible para su uso con todos los modelos de próxima generación. En general, este parámetro está disponible para todos los modelos de nueva generación. Para obtener más información, consulte Número máximo de alternativas. - Arreglo de defecto: permitir el uso de los parámetros
max_alternatives
yend_of_phrase_silence_time
con modelos de próxima generación -
Arreglo de defectos: cuando se utilizan los parámetros
max_alternatives
yend_of_phrase_silence_time
en la misma solicitud con modelos de próxima generación, el servicio ahora devuelve varias transcripciones alternativas respetando también el intervalo de pausa indicado. Anteriormente, el uso de los dos parámetros en una sola solicitud generaba una anomalía. (El uso del parámetromax_alternatives
con modelos de próxima generación estaba disponible anteriormente como una característica experimental para un número limitado de clientes.) - Arreglo de defectos: actualizar al modelo multimedia de próxima generación en japonés (se requiere actualización)
-
Arreglo de defectos: El modelo multimedia de próxima generación en japonés,
ja-JP_Multimedia
, se ha actualizado para abordar una incoherencia interna que podría provocar un error durante el reconocimiento de voz con baja latencia. Es necesario actualizar los modelos personalizados que se basan en el modeloja-JP_Multimedia
. Para obtener más información sobre la actualización de modelos personalizados, consulte - Arreglo de defectos: añadir directrices de documentación para crear suenes-me gusta en japonés basándose en modelos de próxima generación
-
Arreglo de defectos: en sonidos-me gusta para modelos de lenguaje personalizado en japonés que se basan en modelos de próxima generación, la secuencia de caracteres
ウー
es ambigua en algunos contextos de la izquierda. No utilice caracteres (sílabas) que terminen con el fonema/o/
, como por ejemploロ
yト
. En estos casos, utiliceウウ
o simplementeウ
en lugar deウー
. Por ejemplo, utiliceロウウマン
oロウマン
en lugar deロウーマン
. Para obtener más información, consulte Directrices para japonés. - Arreglo de defectos: uso correcto del campo
display_as
en los resultados de la transcripción -
Arreglo de defectos: para la personalización del modelo de lenguaje con modelos de próxima generación, el valor del campo
display_as
para una palabra personalizada aparece ahora en todas las transcripciones. Anteriormente, el valor del campoword
a veces aparecía en los resultados de la transcripción. - Vulnerabilidades de seguridad abordadas
-
Se han corregido las siguientes vulnerabilidades de seguridad:
- Boletín de seguridad: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data es vulnerable a problemas en OpenSSL(CVE-2022-1434, CVE-2022-1343, CVE-2022-1292, CVE-2022-1473)
- Boletín de seguridad: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data es vulnerable a la ejecución arbitraria de mandatos en OpenSSL(CVE-2022-2068)
- Boletín de seguridad: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data es vulnerable a una denegación de servicio en protobuf(CVE-2022-1941)
- Boletín de seguridad: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data es vulnerable a un desbordamiento de búfer en GNU glibc(CVE-2021-3999)
- Boletín de seguridad: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data es vulnerable a una omisión de seguridad en GNU gzip(CVE-2022-1271)
- Boletín de seguridad: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data es vulnerable a una denegación de servicio en Golang Go(CVE-2022-27664)
- Boletín de seguridad: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data es vulnerable a una denegación de servicio en Golang Go(CVE-2022-2879)
- Boletín de seguridad: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data es vulnerable al contrabando de parámetros de consulta en Golang Go(CVE-2022-2880)
- Boletín de seguridad: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data es vulnerable a una denegación de servicio en Golang Go(CVE-2022-32189)
- Boletín de seguridad: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data es vulnerable a una denegación de servicio en Golang Go(CVE-2022-41715)
- Boletín de seguridad: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data es vulnerable a la exposición de información en OpenSSL(CVE-2022-2097)
30 de noviembre de 2022 (Versión 4.6.0)
- Ya está disponible la versión 4.6.0
-
Speech to Text para IBM Cloud Pak for Data versión 4.6.0 ya está disponible. Esta versión es compatible con IBM Cloud Pak for Data versión 4.6.x y Red Hat OpenShift versiones 4.8 y 4.10. Para más información, consulte Watson Servicios de voz en IBM Cloud Pak for Data.
- Amazon Web Services (AWS) ahora está soportado
-
Watson Los servicios de voz para IBM Cloud Pak for Data ahora están soportados en Amazon Web Services™ (AWS™). Los servicios dan soporte a Amazon Elastic Block Store, que se especifica estableciendo la propiedad
blockStorageClass
del recurso personalizado de servicios Speech engp2-csi
ogp3-csi
. - Ahora se da soporte a las nuevas clases de almacenamiento
-
Watson Los servicios de voz para IBM Cloud Pak for Data ahora dan soporte a dos clases de almacenamiento adicionales:
- IBM Cloud Block Storage (
ibmc-block-gold
) - NetApp Trident (
ontap-nas
)
Especifique la clase de almacenamiento con la propiedad
blockStorageClass
del recurso personalizado de servicios Speech. Para obtener más información sobre todas las clases de almacenamiento soportadas, consulte los temas siguientes en Watson Servicios de voz en IBM Cloud Pak for Data:- Antes de empezar en Instalación de servicios de voz de Watson
- Especificación de una clase de almacenamiento en Utilización del recurso personalizado de Watson Speech Services
- IBM Cloud Block Storage (
- Problema conocido: algunos pods de servicios de voz de Watson no tienen anotaciones que se utilicen para la planificación
-
Problema conocido: A algunos pods de servicios de voz de Watson les falta la anotación
cloudpakInstanceId
. Si utiliza el servicio de planificación IBM Cloud Pak for Data, los pods de servicios de voz de Watson sin la anotacióncloudpakInstanceId
se- Planificado por el planificador de Kubernetes predeterminado en lugar del servicio de planificación
- No incluido en la aplicación de la cuota
- La supervisión del almacén de datos PostgreSQL ya está disponible
-
Ahora puede habilitar la supervisión del almacén de datos PostgreSQL para recibir actualizaciones sobre su uso y estado por parte de los servicios de voz de Watson. Los sucesos los puede consumir el software de supervisión Prometheus o cualquier aplicación que utilice para la supervisión. Al habilitar la supervisión para proyectos definidos por el usuario además de la supervisión de plataforma predeterminada, puede supervisar sus propios proyectos con la pila de supervisión de Red Hat® OpenShift® Container Platform. Esta prestación incluye una propiedad adicional,
spec.global.datastores.postgressql.enablePodMonitor
, en el recurso personalizado de servicios de voz.Para obtener más información, consulte el tema Supervisión del almacén de datos de PostgreSQL para servicios de Watson Speech en la sección Administración de Watson Servicios de voz en IBM Cloud Pak for Data.
- Arreglo de defecto: el almacén de datos PostgreSQL ya no está instalado si solo están habilitados los microservicios de tiempo de ejecución
-
Arreglo de defectos: el almacén de datos PostgreSQL ya no se instala si sólo están habilitados los microservicios de tiempo de ejecución. Ahora el almacén de datos sólo se instala si se ha instalado al menos uno de los microservicios
sttAsync
,sttCustomization
ottsCustomization
. PostgreSQL no se desinstala si en una fecha posterior estos microservicios están inhabilitados.Antes de la versión 4.6.0, PostgreSQL siempre se instalaba con los servicios de voz. Si es un cliente existente que solo ha utilizado los microservicios de tiempo de ejecución de los servicios de voz anteriores a la versión 4.6.0, PostgreSQL permanece instalado pero no se utiliza. En este caso, la instalación de PostgreSQL persiste entre actualizaciones.
El almacén de datos MinIO siempre se instala porque los microservicios de tiempo de ejecución dependen de él. El almacén de datos de RabbitMQ sólo se instala si está instalado el microservicio de
sttAsync
.Para obtener más información, consulte Propiedades de almacén de datos en Utilización del recurso personalizado de servicios de voz de Watson en Watson Servicios de voz en IBM Cloud Pak for Data.
- Arreglo de defecto: la creación de una política de red ya no es necesaria para que el operador PostgreSQL supervise sus operandos
-
Arreglo de defectos: Para la versión 4.6.0, no es necesario crear una política de red para permitir que el operador PostgreSQL supervise sus operandos, tal como se describe en la actualización del servicio 10 de noviembre de 2022(Versiones 4.0.x y 4.5.x). A partir de la versión 4.6.0, el servicio maneja esta situación automáticamente.
- Arreglo de defectos: algunos modelos de próxima generación se han actualizado para mejorar el tiempo de respuesta de baja latencia
-
Arreglo de defectos: Los siguientes modelos de próxima generación se han actualizado para mejorar su tiempo de respuesta cuando se utiliza el parámetro
low_latency
:en-IN_Telephony
hi-IN_Telephony
it-IT_Multimedia
nl-NL_Telephony
Anteriormente, estos modelos no devolvían los resultados de reconocimiento tan rápidamente como se esperaba cuando se utilizaba el parámetro
low_latency
. No es necesario actualizar modelos personalizados basados en estos modelos. Para obtener más información sobre todos los modelos de próxima generación disponibles, consulte Idiomas y modelos de próxima generación. - Arreglo de defectos: Mejorar la documentación de denominación de modelos personalizados
-
Arreglo de defectos: la documentación ahora proporciona reglas detalladas para denominar modelos de lenguaje personalizado y modelos acústicos personalizados. Para obtener más información, consulte
- Vulnerabilidades de seguridad abordadas
-
Se han corregido las siguientes vulnerabilidades de seguridad:
- Boletín de seguridad: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data es vulnerable a un ataque de configuración cruzada contra OpenPGP(CVE-2021-40528)
- Boletín de seguridad: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data es vulnerable a la ejecución de código arbitrario en PCRE2(CVE-2022-1586)
- Boletín de seguridad: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data es vulnerable a un desbordamiento de almacenamiento intermedio basado en almacenamiento dinámico en Vim(CVE-2022-1621)
- Boletín de seguridad: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data es vulnerable a un desbordamiento de almacenamiento intermedio en Vim(CVE-2022-1629)
- Boletín de seguridad: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data es vulnerable a la ejecución de código arbitrario en Vim(CVE-2022-1785, CVE-2022-1897, CVE-2022-1927)
- Boletín de seguridad: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data es vulnerable a una omisión de restricciones de seguridad en cURL libcurl(CVE-2022-22576)
- Boletín de seguridad: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data es vulnerable a la exposición de credenciales en cURL libcurl(CVE-2022-27774)
- Boletín de seguridad: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data es vulnerable a la exposición de información de datos en cURL libcurl(CVE-2022-27776)
- Boletín de seguridad: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data es vulnerable a una omisión de restricciones de seguridad en cURL libcurl(CVE-2022-27782)
- Boletín de seguridad: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data es vulnerable a una denegación de servicio en GNOME libxml2(CVE-2022-29824)
- Boletín de seguridad: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data es vulnerable a una inyección de SQL en PostgreSQL(CVE-2022-31197)
- Boletín de seguridad: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data es vulnerable a una denegación de servicio en libexpat(CVE-2022-25313)
- Boletín de seguridad: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data es vulnerable a la ejecución de código arbitrario en libexpat(CVE-2022-25314)
10 de noviembre de 2022 (Versiones 4.0.x y 4.5.x)
- Problema conocido: se ha actualizado la política de red necesaria para el operador PostgreSQL
-
Problema conocido: Para servicios Speech versión 4.0.x (sin incluir la versión 4.0.0) y 4.5.x, si el operador PostgreSQL y los servicios Speech están instalados en distintos espacios de nombres, el operador PostgreSQL no puede supervisar los operandos PostgreSQL para los servicios Speech. El operador no puede supervisar los operandos mediante la política de red que está en vigor para los servicios de voz.
Este problema no impide que el clúster PostgreSQL funcione correctamente. El clúster permanece activo y totalmente funcional. Sin embargo, el operador no puede actualizar los operandos al actualizar a nuevas versiones de los servicios de voz.
La solución para el problema es crear una política de red adicional para el operador PostgreSQL, tal como se muestra en los pasos siguientes. Puede realizar los pasos independientemente de si el operador PostgreSQL está instalado en el mismo espacio de nombres que los servicios Speech o en un espacio de nombres diferente.
-
Inicie sesión como administrador del proyecto Red Hat® OpenShift® donde están instalados los servicios de Speech.
-
Especifique el mandato siguiente para actualizar la política de red para los servicios de voz:
cat << EOF | oc apply -f - apiVersion: networking.k8s.io/v1 kind: NetworkPolicy metadata: labels: app.kubernetes.io/component: stt app.kubernetes.io/instance: {{ <custom-resource-name> }} app.kubernetes.io/name: speech-to-text release: {{ <custom-resource-name> }} name: <custom-resource-name>-postgres-network-policy namespace: {{ <cpd-instance-namespace> }} spec: ingress: - from: - namespaceSelector: {} podSelector: matchLabels: app.kubernetes.io/name: cloud-native-postgresql EOF
donde
<custom-resource-name>
es el nombre del recurso personalizado Speech services. El nombre recomendado para la versión 4.0.x esspeech-prod-cr
; el nombre recomendado para la versión 4.5.x esspeech-cr
.<cpd-instance-name>
es el nombre del proyecto (espacio de nombres) en el que están instalados los servicios de voz. La documentación utiliza la variable de entorno${PROJECT_CPD_INSTANCE}
para identificar el espacio de nombres.
-
Para verificar que la política de red actualizada permite al operador supervisar los operandos y que el clúster PostgreSQL está en buen estado, especifique el mandato siguiente, donde
<custom-resource-name>
y<cpd-instance-name>
son los valores que ha utilizado en el paso anterior:oc -get cluster {{ <custom-resource-name> }}-postgres -n {{ <cpd-instance-namespace> }}
Si el clúster PostgreSQL funciona correctamente, el mandato genera una salida similar a la siguiente:
NAME AGE INSTANCES READY STATUS PRIMARY speech-cr-postgres 14d 3 3 Cluster in healthy state speech-cr-postgres-1
Estos pasos no hacen que el operador actualice los operandos a las versiones más recientes. Sin embargo, los operandos se actualizan como se esperaba la próxima vez que actualice el software de servicios de Speech.
-
13 de octubre de 2022 (Versión 4.5.3)
- Ya está disponible la versión 4.5.3
-
Speech to Text para IBM Cloud Pak for Data versión 4.5.3 ya está disponible. Esta versión es compatible con IBM Cloud Pak for Data versión 4.5.x y Red Hat OpenShift versiones 4.6, 4.8, y 4.10. Para más información, consulte Watson Servicios de voz en IBM Cloud Pak for Data.
- Los sucesos de auditoría están disponibles para los servicios de voz
-
El servicio de registro de auditoría de IBM Cloud Pak for Data genera y reenvía sucesos de auditoría para los servicios Speech to Text y Text to Speech. Los sucesos de auditoría coinciden con los que están disponibles para Activity Tracker con el servicio público. Para obtener más información, consulte Sucesos de auditoría.
- No puede desinstalar componentes de servicio Speech individuales
-
La documentación indica ahora que no puede desinstalar componentes de servicio individuales (microservicios) una vez instalados. Para eliminar cualquiera de los siguientes componentes, debe desinstalar los servicios Watson Speech en su totalidad y reinstalar solo los componentes que necesita: Speech to Text tiempo de ejecución, Speech to Text HTTP asíncrono, Speech to Text personalización, Text to Speech tiempo de ejecución y Text to Speech personalización. Para obtener más información sobre la instalación de los servicios de voz, consulte Watson Servicios de voz en IBM Cloud Pak for Data.
- Nuevo modelo multimedia francés canadiense de próxima generación
-
El servicio ofrece ahora un modelo multimedia de nueva generación para los francocanadienses:
fr-CA_Multimedia
. El nuevo modelo soporta la baja latencia y está a disposición general. También es compatible con las gramáticas y la personalización del modelo de idioma. Para más información sobre los modelos de nueva generación y baja latencia, consulte - Actualizaciones de los modelos ingleses de telefonía de nueva generación
-
Los modelos ingleses de telefonía de nueva generación se han actualizado para mejorar el reconocimiento de voz:
en-AU_Telephony
en-GB_Telephony
en-IN_Telephony
en-US_Telephony
Todos estos modelos siguen soportando una baja latencia. No es necesario actualizar modelos personalizados basados en estos modelos. Para obtener más información sobre todos los modelos de próxima generación disponibles, consulte Idiomas y modelos de próxima generación.
- El modelo multimedia italiano de nueva generación ya admite baja latencia
-
El modelo multimedia de próxima generación italiano,
it-IT_Multimedia
, ahora admite una latencia baja. Para más información sobre los modelos de nueva generación y baja latencia, consulte - Resolución de problemas de actualización de la versión 4.0.x a la versión 4.5.x
-
Al actualizar los servicios de voz de la versión 4.0.x a la versión 4.5.x, es posible que se encuentre con un problema en el que los pods PostgreSQL se atascan en el estado
Terminating
. Si este problema se produce durante la actualización, realice los pasos siguientes para resolver el problema. La información y los pasos también se documentan en Actualización de servicios de voz de Watson de la versión 4.0 a la versión 4.5 en el tema Actualización de Watson Servicios de voz en IBM Cloud Pak for Data.- Utilice el mandato siguiente para identificar los pods que permanecen en el estado
Terminating
:
oc get pods -n ${PROJECT_CPD_INSTANCE} -o wide | awk {'print $1'}
- Utilice el mandato siguiente para establecer la variable de entorno
pods
para incluir la lista de pods que permanecen en el estadoTerminating
:
pods=$(oc get pods -n ${PROJECT_CPD_INSTANCE} -o wide | awk {'print $1'})
- Utilice el mandato siguiente para suprimir los pods atascados para que el proceso de actualización pueda continuar:
pods=$(oc get pods -n ${PROJECT_CPD_INSTANCE} -o wide | grep Terminating | awk {'print $1'})
- Utilice el mandato siguiente para identificar los pods que permanecen en el estado
- Arreglo de defectos: documentación de entradas de recurso personalizado de arreglo
-
Arreglo de defectos: La documentación para el recurso personalizado de servicios de voz ahora incluye dos puntos después de los nombres de los modelos
koKrTelephony
ynlNlTelephony
. Anteriormente, la documentación para estas dos entradas omitió los dos puntos. - Vulnerabilidades de seguridad abordadas
-
Se han corregido las siguientes vulnerabilidades de seguridad:
- Boletín de seguridad: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data es vulnerable a un error de lectura excesiva de almacenamiento intermedio en el kernel de Linux(CVE-2020-28915)
- Boletín de seguridad: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data es vulnerable a una omisión de seguridad en GNU Gzip(CVE-2022-1271)
- Boletín de seguridad: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data es vulnerable a privilegios elevados en Apple macOS Monterey y macOS Big Sur(CVE-2022-26691)
- Boletín de seguridad: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data es vulnerable a privilegios elevados en Linux Kernel(CVE-2022-27666)
- Boletín de seguridad: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data es vulnerable a los scripts entre sitios en Apache Tomcat(CVE-2022-34305)
- Boletín de seguridad: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data es vulnerable a una omisión de restricciones de seguridad en GNU C Library(CVE-2019-19126)
- Boletín de seguridad: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data es vulnerable a una denegación de servicio en GNU C Library(CVE-2020-10029)
- Boletín de seguridad: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data es vulnerable a una denegación de servicio en GNU glibc(CVE-2020-1751)
- Boletín de seguridad: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data es vulnerable a una denegación de servicio en GNU glibc(CVE-2020-1752)
- Boletín de seguridad: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data es vulnerable a la divulgación o denegación de servicio de información en GNU glibc(CVE-2021-35942)
- Boletín de seguridad: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data es vulnerable al desbordamiento de almacenamiento intermedio en OpenSSL(CVE-2021-3711)
- Boletín de seguridad: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data es vulnerable a la divulgación de información o denegación de servicio en OpenSSL(CVE-2021-3712)
- Boletín de seguridad: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data es vulnerable a una seguridad debilitada en OpenSSL(CVE-2021-4160)
- Boletín de seguridad: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data es vulnerable a una denegación de servicio en OpenSSL(CVE-2022-0778)
19 de agosto de 2022 (Versión 4.5.1)
- Importante: La fecha de desuso para la mayoría de los modelos de generación anterior es ahora el 3 de marzo de 2023
-
Reemplazado: este aviso de desuso ha sido reemplazado por la actualización de servicio del 23 de febrero de 2023. La fecha de fin de servicio para todos los modelos de generación anterior es ahora 31 de julio de 2023.
El 15 de marzo de 2022 quedaron obsoletos los modelos de la generación anterior para todas las lenguas excepto el árabe y el japonés. En ese momento, los modelos en desuso iban a permanecer disponibles hasta el 15 de septiembre de 2022. Para permitir a los usuarios más tiempo para migrar a los modelos de próxima generación adecuados, los modelos en desuso ahora permanecerán disponibles hasta el 3 de marzo de 2023. Al igual que con el aviso de desuso inicial, los modelos de generación anterior en árabe y japonés no están en desuso. Para obtener una lista completa de todos los modelos en desuso, consulte la actualización del servicio 15 de marzo de 2022(Versión 4.0.6).
El 3 de marzo de 2023, los modelos en desuso se eliminarán del servicio y de la documentación. Si utiliza alguno de los modelos obsoletos, deberá migrar al modelo equivalente de próxima generación antes del 3 de marzo de 2023.
- Para obtener más información sobre los modelos de próxima generación a los que puede migrar desde cada uno de los modelos en desuso, consulte Idiomas y modelos de la generación anterior
- Para obtener más información sobre los modelos de próxima generación, consulte Idiomas y modelos de próxima generación
- Para obtener más información sobre la migración de modelos de la generación anterior a modelos de la próxima generación, consulte Migración a modelos de próxima generación.
Nota: Cuando se retire del servicio el modelo
en-US_BroadbandModel
de la generación anterior, el modeloen-US_Multimedia
de la generación siguiente se convertirá en el modelo predeterminado para las solicitudes de reconocimiento de voz.
3 de agosto de 2022 (Versión 4.5.1)
- Ya está disponible la versión 4.5.1
-
Speech to Text para IBM Cloud Pak for Data versión 4.5.1 ya está disponible. Esta versión es compatible con IBM Cloud Pak for Data versión 4.5.x y Red Hat OpenShift versiones 4.6, 4.8, y 4.10. Para más información, consulte Watson Servicios de voz en IBM Cloud Pak for Data.
- Soporte para clústeres habilitados para FIPS
-
Speech to Text para IBM Cloud Pak for Data y Text to Speech para IBM Cloud Pak for Data ahora dan soporte a la ejecución en clústeres habilitados para FIPS (Federal Information Processing Standard). Para obtener más información, consulte Servicios que dan soporte a FIPS.
- Arreglo de defectos: arregle los cálculos de almacenamiento efímero para evitar desalojos ocasionales de pod
-
Arreglo de defectos: Se ha solucionado un defecto y el cálculo de los límites de almacenamiento efímero es ahora más preciso para los tiempos de ejecución de Speech to Text para IBM Cloud Pak for Data y Text to Speech para IBM Cloud Pak for Data. Estos cambios evitan desalojos ocasionales de pods cuando los tiempos de ejecución de los servicios están bajo mucha carga.
- Arreglo de defectos: actualizar la documentación de vacilaciones de voz y marcadores de vacilación
-
Corrección de defectos: Se ha actualizado la documentación de las vacilaciones del habla y los marcadores de vacilación. Los modelos de generación anterior incluyen marcadores de vacilación en lugar de vacilaciones de voz en los resultados de transcripción para la mayoría de los idiomas; el formateo inteligente elimina los marcadores de vacilación de las transcripciones finales en inglés de EE.UU. Los modelos de próxima generación incluyen las vacilaciones reales del habla en los resultados de la transcripción; el formato inteligente no tiene ningún efecto en su inclusión en los resultados finales de la transcripción.
Para obtener más información, consulte:
- Vulnerabilidades de seguridad abordadas
-
Se han corregido las siguientes vulnerabilidades de seguridad:
- Boletín de seguridad: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data es vulnerable a un desbordamiento de almacenamiento intermedio basado en almacenamiento dinámico en rsyslog(CVE-2022-24903)
- Boletín de seguridad: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data es vulnerable a un problema de contrabando de solicitudes HTTP en Twisted(CVE-2022-24801)
- Boletín de seguridad: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data es vulnerable a una denegación de servicio, causada por un desbordamiento de búfer en Twisted(CVE-2022-21716)
- Boletín de seguridad: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data es vulnerable a una denegación de servicio, provocada por una comparación de series incompleta en NumPy(CVE-2021-34141)
- Boletín de seguridad: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data es vulnerable a una denegación de servicio, causada por un desbordamiento de almacenamiento intermedio en NumPy(CVE-2021-41496)
- Boletín de seguridad: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data es vulnerable a la exposición de la cabecera de cookie y autorización en Twisted(CVE-2022-21712)
- Boletín de seguridad: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data es vulnerable a un desbordamiento de almacenamiento intermedio basado en almacenamiento dinámico en Perl(CVE-2018-18311)
- Boletín de seguridad: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data es vulnerable a un desbordamiento de almacenamiento intermedio basado en almacenamiento dinámico en Perl(CVE-2018-18312)
- Boletín de seguridad: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data es vulnerable a un desbordamiento de almacenamiento intermedio basado en almacenamiento dinámico en Perl(CVE-2018-18313)
- Boletín de seguridad: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data es vulnerable a un desbordamiento de almacenamiento intermedio basado en almacenamiento dinámico en Perl(CVE-2018-18314)
- Boletín de seguridad: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data es vulnerable a un desbordamiento de almacenamiento intermedio basado en almacenamiento dinámico en Perl(CVE-2018-6913)
- Boletín de seguridad: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data es vulnerable a la inyección de CRLF en Python(CVE-2019-11236)
- Boletín de seguridad: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data es vulnerable a una denegación de servicio en GNU Tar(CVE-2019-9923)
- Boletín de seguridad: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data es vulnerable a un desbordamiento de almacenamiento intermedio basado en almacenamiento dinámico en Perl(CVE-2020-10543)
- Boletín de seguridad: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data es vulnerable a un desbordamiento de enteros en Perl(CVE-2020-10878)
- Boletín de seguridad: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data es vulnerable a un desbordamiento de almacenamiento intermedio en Perl(CVE-2020-12723)
- Boletín de seguridad: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data es vulnerable a una denegación de servicio en urllib3(CVE-2021-33503)
- Boletín de seguridad: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data es vulnerable a ataques de inyección en Ansible(CVE-2021-3583)
- Boletín de seguridad: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data es vulnerable a una denegación de servicio en Golang Go(CVE-2022-23772)
- Boletín de seguridad: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data es vulnerable a un control de acceso incorrecto en Golang Go(CVE-2022-23773)
- Boletín de seguridad: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data es vulnerable a una denegación de servicio en Golang Go(CVE-2022-23806)
- Boletín de seguridad: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data es vulnerable a una denegación de servicio en Golang Go(CVE-2022-24675)
- Boletín de seguridad: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data es vulnerable a una denegación de servicio en Golang Go(CVE-2022-24921)
- Boletín de seguridad: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data es vulnerable a una denegación de servicio en Golang Go(CVE-2022-28327)
- Boletín de seguridad: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data es vulnerable a un desbordamiento de almacenamiento intermedio basado en almacenamiento dinámico en libssh, provocado por una comprobación de límites incorrecta(CVE-2021-3634)
- Boletín de seguridad: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data es vulnerable a una denegación de servicio en Python(CVE-2021-3737)
- Boletín de seguridad: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data es vulnerable a una posible exposición de información confidencial en Python(CVE-2021-4189)
- Boletín de seguridad: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data es vulnerable a una omisión de restricciones de seguridad en lxml(CVE-2021-43818)
- Boletín de seguridad: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data es vulnerable a la ejecución de código arbitrario en MS Visual Studio(CVE-2021-21300)
- Boletín de seguridad: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data es vulnerable a una omisión de restricciones de seguridad en Git(CVE-2021-40330)
- Boletín de seguridad: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data es vulnerable a la ejecución de código arbitrario en MS Visual Studio(CVE-2022-24765)
- Boletín de seguridad: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data es vulnerable a la ejecución arbitraria de mandatos en Git(CVE-2018-1000021)
- Boletín de seguridad: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data es vulnerable a los scripts entre sitios en jQuery(CVE-2015-9251)
- Boletín de seguridad: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data es vulnerable a los scripts entre sitios en jQuery(CVE-2019-11358)
- Boletín de seguridad: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data es vulnerable a los scripts entre sitios en jQuery(CVE-2020-11022)
- Boletín de seguridad: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data es vulnerable a los scripts entre sitios en jQuery(CVE-2020-11023)
- Boletín de seguridad: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data es vulnerable a una debilidad de seguridad de reglas de enlace de datos en Spring Framework(CVE-2022-22968)
29 de junio de 2022 (Versión 4.5.0)
- Ya está disponible la versión 4.5.0
-
Speech to Text para IBM Cloud Pak for Data versión 4.5.0 ya está disponible. Esta versión es compatible con IBM Cloud Pak for Data versión 4.5.x y Red Hat OpenShift versiones 4.6, 4.8, y 4.10. Para más información, consulte Watson Servicios de voz en IBM Cloud Pak for Data.
- Servicios de voz unificados para la documentación de IBM Cloud Pak for Data
-
La documentación de instalación y administración para Speech to Text y Text to Speech ahora se combina en la documentación de IBM Cloud Pak for Data. Para obtener más información sobre cómo instalar y gestionar los servicios de Speech, consulte Watson Servicios de Speech en IBM Cloud Pak for Data.
- Cambios en el recurso personalizado de servicios de voz
-
El recurso personalizado se crea ahora al instalar inicialmente los servicios de Speech. El proceso se describe en la documentación de instalación de IBM Cloud Pak for Data. El contenido del recurso personalizado ha cambiado:
- El nombre recomendado del recurso personalizado ha cambiado de
speech-prod-cr
aspeech-cr
. - Todas las referencias a la clase de almacenamiento han cambiado de variantes de
storageClass
ablockStorageClass
. - El nombre de la clase de almacenamiento en bloque Portworx ha cambiado de
portworx-shared-gp3
aportworx-db-gp3-sc
. - La propiedad
createSecret
se ha eliminado para los almacenes de datos MinIO y PostgreSQl. La propiedad sólo se utiliza internamente. Los servicios de voz siempre utilizan un objeto de secretos si crea uno, y siempre crean automáticamente el objeto si no se proporciona ninguno.
- El nombre recomendado del recurso personalizado ha cambiado de
- El objeto de secretos proporcionado por el usuario ahora está soportado para el almacén de datos RabbitMQ
-
Ahora puede proporcionar credenciales de seguridad para el almacén de datos RabbitMQ, del mismo modo que puede hacerlo para los almacenes de datos MinIO y PostgreSQL. El proceso documentado es similar para los tres almacenes de datos.
- Nuevo modelo de próxima generación
it-IT_Multimedia
de italiano -
El servicio ahora ofrece un modelo multimedia de próxima generación para italiano:
it-IT_Multimedia
. El nuevo modelo está disponible de forma general. No admite la latencia baja, pero sí las gramáticas y la personalización del modelo de idioma. Para obtener más información sobre todos los modelos de próxima generación disponibles, consulte Idiomas y modelos de próxima generación. - Modelos actualizados de próxima generación de telefonía y multimedia en coreano
-
Se han actualizado los modelos actuales de próxima generación de coreano:
- El modelo
ko-KR_Telephony
se ha actualizado para mejorar el soporte de baja latencia para el reconocimiento de voz. - El modelo
ko-KR_Multimedia
se ha actualizado para mejorar el reconocimiento de voz. El modelo ahora también da soporte a la baja latencia.
Ambos modelos están disponibles a nivel general y ambos admiten las gramáticas y la personalización del modelo de idioma. No es necesario actualizar los modelos personalizados basados en estos modelos. Para obtener más información sobre todos los modelos de próxima generación disponibles, consulte Idiomas y modelos de próxima generación.
- El modelo
- Actualizaciones de varios modelos de telefonía de próxima generación
-
Los siguientes modelos de telefonía en inglés de nueva generación se han actualizado para mejorar el reconocimiento de voz:
en-AU_Telephony
en-GB_Telephony
en-IN_Telephony
en-US_Telephony
No es necesario actualizar modelos personalizados basados en estos modelos. Para obtener más información sobre todos los modelos de próxima generación disponibles, consulte Idiomas y modelos de próxima generación.
- Arreglo de defectos: ahora se notifican las puntuaciones de confianza para todos los resultados de transcripción
-
Arreglo de defectos: ahora se notifican las puntuaciones de confianza para todos los resultados de transcripción. Anteriormente, cuando el servicio devolvía varias transcripciones para una única solicitud de reconocimiento de voz única, las puntuaciones de confianza podían no devolverse para todas las transcripciones.
- Vulnerabilidades de seguridad abordadas
-
No se han corregido vulnerabilidades de seguridad para la versión 4.5.0.
25 de mayo de 2022 (Versión 4.0.9)
- La versión 4.0.9 ya está disponible
-
Speech to Text para IBM Cloud Pak for Data versión 4.0.9 ya está disponible. Esta versión da soporte a IBM Cloud Pak for Data versión 4.x y Red Hat OpenShift versiones 4.6 y 4.8. Para obtener más información sobre cómo instalar y gestionar el servicio, consulte Instalación de Watson Speech to Text.
- Nuevo modelo de próxima generación
pt-BR_Multimedia
de portugués de Brasil -
El servicio ahora ofrece un modelo multimedia de próxima generación para portugués de Brasil:
pt-BR_Multimedia
. El nuevo modelo soporta la baja latencia y está a disposición general. También es compatible con las gramáticas y la personalización del modelo de idioma. Para obtener más información sobre los modelos de próxima generación y la baja latencia, consulte - Actualización para que el modelo de próxima generación
de-DE_Multimedia
de alemán admita la baja latencia -
El modelo de alemán de próxima generación,
de-DE_Multimedia
, ahora admite la baja latencia. No es necesario actualizar los modelos personalizados basados en el modelo base actualizado para alemán. Para obtener más información sobre los modelos de próxima generación y la baja latencia, consulte - Nuevo parámetro beta
character_insertion_bias
para modelos de próxima generación -
Todos los modelos de próxima generación admiten ahora un nuevo parámetro beta,
character_insertion_bias
, que está disponible con todas las interfaces de reconocimiento de voz. De forma predeterminada, el servicio está optimizado para que cada modelo individual equilibre su reconocimiento de series candidatas de diferentes longitudes. El sesgo específico del modelo es equivalente a 0.0. El sesgo predeterminado de cada modelo es suficiente para la mayoría de las solicitudes de reconocimiento de voz.Sin embargo, ciertos casos de uso pueden beneficiarse de hipótesis a favor con series de caracteres más cortas o más largas. El parámetro acepta valores entre -1.0 y 1.0 que representan un cambio del valor predeterminado de un modelo. Los valores negativos indican al servicio que favorezca las series más cortas de caracteres. Los valores positivos indican al servicio que favorezca las series de caracteres más largas. Para obtener más información, consulte Sesgo de inserción de caracteres.
- Los servicios de voz no dan soporte al programa de utilidad de copia de seguridad y restauración de OADP
-
Los servicios de voz de Watson no dan soporte al programa de utilidad de copia de seguridad y restauración de IBM Cloud Pak for Data OADP (OpenShift APIs for Data Protection). Si los servicios de voz están instalados en un clúster, es posible que no pueda utilizar el programa de utilidad de copia de seguridad y restauración de IBM Cloud Pak for Data OADP para realizar una copia de seguridad de otros servicios instalados en dicho clúster. Esta limitación se aplica a las versiones 4.0.0 y posteriores de los servicios de voz.
- Vulnerabilidades de seguridad abordadas
-
Se han corregido las siguientes vulnerabilidades de seguridad:
- Boletín de seguridad: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data es vulnerable a una denegación de servicio, causada por un desbordamiento de búfer con Twisted(CVE-2022-21716)
- Boletín de seguridad: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data es vulnerable a una denegación de servicio en NumPy. (CVE-2021-33430)
- Boletín de seguridad: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data es vulnerable a una denegación de servicio, causada por una validación de entrada incorrecta con Spring Framework(CVE-2022-22950)
1 de mayo de 2022 (Versión 1.2.x)
- Importante: fin del servicio para Speech to Text versión 1.2.x en IBM Cloud Pak for Data versión 3.5
- Importante: Speech to Text versión 1.2.x en IBM Cloud Pak for Data versión 3.5 está fuera de servicio a partir del 1 de mayo de 2022. Speech to Text versión 1.2.x ha dejado de estar soportado, disponible y documentado. Para obtener más información sobre el Fin de servicio de Speech to Text, que forma parte del Kit de API de Watson, consulte Interrupción del soporte de software: Kit de API de IBM Watson para IBM Cloud Pak for Data 1.2.x.
27 de abril de 2022 (Versión 4.0.8)
- La versión 4.0.8 ya está disponible
-
Speech to Text for IBM Cloud Pak for Data versión 4.0.8 ya está disponible. Esta versión da soporte a IBM Cloud Pak for Data versión 4.x y Red Hat OpenShift versiones 4.6 y 4.8. Para obtener más información sobre cómo instalar y gestionar el servicio, consulte Instalación de Watson Speech to Text.
- Nuevas variables de entorno utilizadas en la documentación de IBM Cloud Pak for Data
-
La mayoría de los mandatos de la documentación de Speech to Text for IBM Cloud Pak for Data se han actualizado para utilizar un conjunto común de variables de entorno. La documentación proporciona un script para exportar automáticamente las variables de entorno antes de ejecutar mandatos de instalación, actualización y administración. Después de obtener el origen del script, puede copiar la mayoría de los mandatos de la documentación y ejecutarlos sin realizar ningún cambio.
Las variables de entorno que define el script incluyen las siguientes:
${PROJECT_CPD_INSTANCE}
identifica el proyecto en el que tiene previsto instalar IBM Cloud Pak for Data y los servicios de voz.${PROJECT_CPD_OPS}
identifica el proyecto para el operador de plataforma de IBM Cloud Pak for Data.${PROJECT_CPFS_OPS}
identifica el proyecto para los servicios básicos de IBM Cloud Pak for Data.
Para obtener más información sobre cómo utilizar las variables de entorno, consulte Prácticas recomendadas: Configuración de variables de instalación.
- La propiedad
ttsVoiceMarginalCPU
ya no está documentada -
La propiedad
ttsVoiceMarginalCPU
se ha eliminado de la documentación del recurso personalizado de servicios de voz. La propiedad gestiona el equilibrio entre simultaneidad y velocidad de síntesis del habla. El valor predeterminado de400
garantiza un equilibrio razonable para la mayoría de clientes y mantiene la síntesis en tiempo real. - Nuevo modelo multimedia de próxima generación para alemán
-
El servicio ahora ofrece un modelo multimedia de próxima generación para alemán:
de-DE_Multimedia
. El nuevo modelo está disponible de forma general. No admite la baja latencia. Admite las gramáticas y la personalización del modelo de idioma como funcionalidad de disponibilidad general.Para obtener más información sobre todos los modelos de próxima generación disponibles y su soporte de personalización, consulte
- El modelo beta
en-WW_Medical_Telephony
de próxima generación ahora admite la baja latencia -
El modelo beta
en-WW_Medical_Telephony
de próxima generación ahora admite la baja latencia. Para obtener más información sobre todos los modelos de próxima generación y baja latencia, consulte - Vulnerabilidades de seguridad abordadas
-
Se han corregido las siguientes vulnerabilidades de seguridad:
- Boletín de seguridad: Una vulnerabilidad con Guava afecta a IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data(CVE-2020-8908)
- Boletín de seguridad: Una vulnerabilidad de Google Guava afecta a IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data(CVE-2018-10237)
- Boletín de seguridad: Vulnerabilidades en Apache Tomcat afectan a IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data(CVE-2022-23181)
- Boletín de seguridad: Una vulnerabilidad de Cyrus SASL afecta a IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data(CVE-2022-24407)
- Boletín de seguridad: Una vulnerabilidad en GNU wget afecta a IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data(CVE-2016-4971)
- Boletín de seguridad: Una vulnerabilidad en GNU Wget afecta a IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data(CVE-2018-0494)
- Boletín de seguridad: Una vulnerabilidad en 'GNU Wget' afecta a IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data(CVE-2018-20483)
- Boletín de seguridad: Una vulnerabilidad en ISC BIND afecta a IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data(CVE-2018-5741)
- Boletín de seguridad: Una vulnerabilidad en Python afecta a IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data(CVE-2019-20916)
- Boletín de seguridad: Una vulnerabilidad con ISC BIND afecta a IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data(CVE-2021-25214)
- Boletín de seguridad: Una vulnerabilidad en ISC BIND afecta a IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data(CVE-2021-25215)
- Boletín de seguridad: Una vulnerabilidad en ISC BIND afecta a IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data(CVE-2021-25216)
- Boletín de seguridad: Una vulnerabilidad en ISC BIND afecta a IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data(CVE-2021-25219)
- Boletín de seguridad: Una vulnerabilidad en PostgreSQL JDBC Driver(PgJDBC)afecta a IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data(CVE-2022-21724)
- Boletín de seguridad: Una vulnerabilidad en GNU Tar afecta a IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data(CVE-2019-9923)
- Boletín de seguridad: Una vulnerabilidad en logback-classic afecta a IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data(CVE-2021-42550)
- Boletín de seguridad: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data es vulnerable a un desbordamiento de búfer basado en pila en la biblioteca GNU C(CVE-2022-23218)
- Boletín de seguridad: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data es vulnerable a un desbordamiento de búfer basado en pila en la biblioteca GNU C(CVE-2022-23219)
- Boletín de seguridad: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data es vulnerable a un desbordamiento de búfer y desbordamiento por defecto en la biblioteca GNU C(CVE-2021-3999)
8 de abril de 2022 (Versión 4.0.7)
- El soporte para pronunciaciones similares está ahora documentado para los modelos personalizados basados en modelos de próxima generación
-
Para los modelos de idioma personalizados basados en modelos de próxima generación, el soporte está ahora documentado para las especificaciones de pronunciaciones parecidas para palabras personalizadas. El soporte para pronunciaciones parecidas ha estado disponible desde finales de 2021.
Existen diferencias entre el uso del campo
sounds_like
para modelos personalizados basados en modelos de generación anterior y de próxima generación. Para obtener más información sobre la utilización del camposounds_like
con modelos personalizados basados en modelos de próxima generación, consulte Trabajar con palabras personalizadas para modelos de próxima generación. - Importante: se ha eliminado el parámetro
customization_id
en desuso de la documentación -
Importante: el 9 de octubre de 2018, el parámetro
customization_id
de todas las solicitudes de reconocimiento de voz quedó en desuso y ha sido sustituido por el parámetrolanguage_customization_id
. El parámetrocustomization_id
se ha eliminado de la documentación para los métodos de reconocimiento de voz:/v1/recognize
para solicitudes WebSocketPOST /v1/recognize
para solicitudes HTTP síncronas (incluidas las solicitudes de varias partes)POST /v1/recognitions
para solicitudes HTTP asíncronas
Nota: si utiliza los SDK de Watson, asegúrese de haber actualizado cualquier código de aplicación para utilizar el parámetro
language_customization_id
en lugar del parámetrocustomization_id
. El parámetrocustomization_id
ya no estará disponible en los métodos equivalentes de los SDK a partir de su próximo release principal. Para obtener más información sobre los métodos de reconocimiento de voz, consulte la Referencia de API y SDK.
30 de marzo de 2022 (Versión 4.0.7)
- La versión 4.0.7 ya está disponible
-
Speech to Text for IBM Cloud Pak for Data versión 4.0.7 ya está disponible. Esta versión da soporte a IBM Cloud Pak for Data versión 4.x y Red Hat OpenShift versiones 4.6 y 4.8. Para obtener más información sobre cómo instalar y gestionar el servicio, consulte Instalación de Watson Speech to Text.
- Propiedad de recurso personalizado para especificar un modelo predeterminado
-
La voz predeterminada para las solicitudes de reconocimiento de voz es
en-US_BroadbandModel
. Si no instalaen-US_BroadbandModel
, debe- Utilizar el parámetro
model
para pasar la voz que se va a utilizar con cada solicitud. - Especificar una nueva voz predeterminada para la instalación de Speech to Text for IBM Cloud Pak for Data utilizando la propiedad
defaultSTTModel
en el recurso personalizado de servicios de voz. Para obtener más información, consulte Instalación de Watson Speech to Text y Utilización del modelo predeterminado.
- Utilizar el parámetro
- Actualizaciones de modelos multimedia de próxima generación para inglés y francés para dar soporte a la baja latencia
-
Se han actualizado los siguientes modelos multimedia para dar soporte a la baja latencia:
- Inglés de Australia:
en-AU_Multimedia
- Inglés de Reino Unido:
en-GB_Multimedia
- Inglés de Estados Unidos:
en-US_Multimedia
- Francés:
fr-FR_Multimedia
No es necesario actualizar los modelos de idioma personalizados que se basan en estos modelos base. Para obtener más información sobre los modelos de próxima generación y la baja latencia, consulte
- Inglés de Australia:
- Nuevo modelo multimedia de próxima generación para castellano
-
El servicio ofrece ahora un modelo multimedia de próxima generación para castellano:
es-ES_Multimedia
. El nuevo modelo soporta la baja latencia y está a disposición general. También es compatible con las gramáticas y la personalización del modelo de idioma.Para obtener más información sobre todos los modelos de próxima generación disponibles y su soporte de personalización, consulte
- El modelo beta de nueva generación
en-WW_Medical_Telephony
ahora da soporte al formateo inteligente -
El modelo beta de próxima generación
en-WW_Medical_Telephony
ahora da soporte al parámetrosmart_formatting
para el audio en inglés de EE. UU. Para obtener más información sobre todos los modelos de próxima generación, consulte Idiomas y modelos de próxima generación - Vulnerabilidades de seguridad abordadas
-
Se han corregido las siguientes vulnerabilidades de seguridad:
- Red Hat CVE-2022-24407: Se ha encontrado un fallo en el complemento SQL incluido con Cyrus SASL. La vulnerabilidad se produce porque no se ha podido escapar correctamente de la entrada de SQL y se genera una vulnerabilidad de validación de entrada incorrecta. Este defecto permite a un atacante ejecutar mandatos SQL arbitrarios y cambiar las contraseñas de otras cuentas para permitir el escalado de privilegios.
- Boletín de seguridad: Una vulnerabilidad jwt-go afecta a IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data(CVE-2020-26160)
- Boletín de seguridad: Una vulnerabilidad en Golang Go afecta a IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data(CVE-2021-29923)
- Boletín de seguridad: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data está afectado pero no clasificado como vulnerable por una ejecución remota de código en Spring Framework(CVE-2022-22965)
- Boletín de seguridad: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data es vulnerable a la ejecución arbitraria de código con IBM WebSphere Application Server(CVE-2021-23450)
17 de marzo de 2022 (Versión 4.0.6)
- El soporte de gramática para los modelos de próxima generación ahora está disponible de forma general
-
Ahora el soporte de gramática está disponible de forma general (GA) para los modelos de próxima generación que cumplen las siguientes condiciones:
- Los modelos están generalmente disponibles.
- Los modelos soportan la personalización del modelo de idioma.
Para obtener más información, consulte los siguientes temas:
- Para obtener más información sobre el estado del soporte de gramática para modelos de próxima generación, consulte Soporte de personalización para modelos de próxima generación.
- Para obtener más información sobre gramáticas, consulte Gramáticas.
15 de marzo de 2022 (Versión 4.0.6)
- Importante: desuso de la mayoría de modelos de la generación anterior
-
Reemplazado: este aviso de desuso ha sido reemplazado por la actualización de servicio del 23 de febrero de 2023. La fecha de fin de servicio para todos los modelos de generación anterior es ahora 31 de julio de 2023.
A partir del 15 de marzo de 2022, los modelos de generación anterior para todos los idiomas que no sean árabe y japonés están en desuso. Los modelos en desuso permanecen disponibles hasta el 15 de septiembre de 2022, cuando serán retirados del servicio y de la documentación. Los modelos árabe y japonés de la generación anterior no están obsoletos.
Los siguientes modelos de la generación anterior ahora están en desuso:
- Chino (mandarín):
zh-CN_NarrowbandModel
yzh-CN_BroadbandModel
- Holandés (Países Bajos):
nl-NL_NarrowbandModel
ynl-NL_BroadbandModel
- Inglés (australiano):
en-AU_NarrowbandModel
yen-AU_BroadbandModel
- Inglés (Reino Unido):
en-UK_NarrowbandModel
yen-UK_BroadbandModel
- Inglés (Estados Unidos):
en-US_NarrowbandModel
,en-US_BroadbandModel
yen-US_ShortForm_NarrowbandModel
- Francés (canadiense):
fr-CA_NarrowbandModel
yfr-CA_BroadbandModel
- Francés (Francia):
fr-FR_NarrowbandModel
yfr-FR_BroadbandModel
- Alemán:
de-DE_NarrowbandModel
yde-DE_BroadbandModel
- Italiano:
it-IT_NarrowbandModel
yit_IT_BroadbandModel
- Coreano:
ko-KR_NarrowbandModel
yko-KR_BroadbandModel
- Portugués (brasileño):
pt-BR_NarrowbandModel
ypt-BR_BroadbandModel
- Español (argentino):
es-AR_NarrowbandModel
yes-AR_BroadbandModel
- Español (castellano):
es-ES_NarrowbandModel
yes-ES_BroadbandModel
- Español (chileno):
es-CL_NarrowbandModel
yes-CL_BroadbandModel
- Español (colombiano):
es-CO_NarrowbandModel
yes-CO_BroadbandModel
- Español (mexicano):
es-MX_NarrowbandModel
yes-MX_BroadbandModel
- Español (peruano):
es-PE_NarrowbandModel
yes-PE_BroadbandModel
Si utiliza cualquiera de estos modelos en desuso, debe migrar al modelo de próxima generación equivalente antes de la fecha de fin de servicio.
- Para obtener más información sobre los modelos de próxima generación a los que puede migrar desde cada uno de los modelos en desuso, consulte Idiomas y modelos de la generación anterior
- Para obtener más información sobre los modelos de próxima generación, consulte Idiomas y modelos de próxima generación
- Para obtener más información sobre la migración de modelos de la generación anterior a modelos de la próxima generación, consulte Migración a modelos de próxima generación.
Nota: cuando el
en-US_BroadbandModel
de la generación anterior se elimina del servicio el 15 de septiembre, el modeloen-US_Multimedia
de próxima generación se convertirá en el modelo predeterminado para las solicitudes de reconocimiento de voz. - Chino (mandarín):
- Los modelos de próxima generación ahora dan soporte a parámetros de análisis de audio
-
Todos los modelos de próxima generación ahora dan soporte a los siguientes parámetros de análisis de audio como características de disponibilidad general:
end_of_phrase_silence_time
especifica la duración del intervalo de pausa en el que el servicio divide una transcripción en varios resultados finales. Para obtener más información, consulte Tiempo de silencio de fin de frase.split_transcript_at_phrase_end
indica al servicio que divida la transcripción en varios resultados finales basándose en las características semánticas de la entrada. Para obtener más información, consulte División de la transcripción al final de la frase.
- Corrección de defectos: Corrección de la documentación de las etiquetas de los altavoces
-
Corrección de defecto: la documentación de las etiquetas de orador incluye la siguiente declaración errónea en varios lugares: Para los modelos de próxima generación, las etiquetas de orador no están soportadas para su uso con resultados provisionales o la baja latencia. Las etiquetas de orador están soportadas para su uso con resultados provisionales y la baja latencia para los modelos de próxima generación. Para obtener más información, consulte Etiquetas de orador.
23 de febrero de 2022 (Versión 4.0.6)
- La versión 4.0.6 ya está disponible
-
Speech to Text para IBM Cloud Pak for Data versión 4.0.6 ya está disponible. Esta versión da soporte a IBM Cloud Pak for Data versión 4.x y Red Hat OpenShift versiones 4.6 y 4.8. Para obtener más información sobre cómo instalar y gestionar el servicio, consulte Instalación de Watson Speech to Text.
- Actualizaciones para importar/exportar scripts
-
Los scripts
import_export.sh
ytransfer_ownership.sh
se han actualizado. Estos scripts se utilizan para importar y exportar datos entre clústeres, hacer una copia de seguridad y restaurar datos y migrar datos de la versión 3.5 a la versión 4.0.x. Los scripts se han modificado y mejorado de la siguiente manera:- El script
transfer_ownership.sh
ahora requiere que se incluya una opción-c
en la línea de mandatos antes del argumento<custom_resource_name>
. - El script
transfer_ownership.sh
requiere ahora una opción y un argumento-v <version>
para indicar la versión a la que se transfiere la propiedad de los recursos. Especifique35
para la versión 3.5 o40
para la versión 4.0.x. - El script
transfer_ownership.sh
ahora requiere que se incluya una opción-p
en la línea de mandatos antes del argumento<postgres_auth_secret_name>
. - El argumento
<postgres_auth_secret_name>
proporciona el secreto de Kubernetes que se utiliza para autenticarse en el almacén de datos de PostgreSQL al que va a transferir la propiedad. Puede omitir el secreto de autenticación si es el mismo que el valor predeterminado (<custom-resource-name>-postgres-auth-secret
para la versión 4.0.x,user-provided-postgressql
para la versión 3.5). Debe proporcionar el secreto si es diferente del valor predeterminado. - Ambos scripts ahora incluyen una opción
-h
(--help
) para visualizar información sobre el script y su uso.
Para obtener más información, consulte
- Administración de Watson Speech to Text, específicamente Importación y exportación de datos y Copia de seguridad y restauración de datos.
- Actualización de Watson Speech to Text, específicamente Migración de datos desde IBM Cloud Pak for Data Versión 3.5.
- El script
- Recomendación actualizada para OpenShift Container Storage
-
A partir de la versión 4.0.6 de los servicios de voz, la clase de almacenamiento recomendada para OpenShift Container Storage es
ocs-storagecluster-ceph-rbd
.- Si está instalando los servicios de voz 4.0.6 o actualizando a los servicios de voz 4.0.6 desde IBM Cloud Pak for Data versión 3.5, especifique la clase de almacenamiento de
ocs-storagecluster-ceph-rbd
durante la instalación o actualización. - Si está actualizando a los servicios de voz 4.0.6 desde una renovación anterior de Cloud Pak for Data versión 4.0, continúe utilizando
ocs-storagecluster-cephfs
. No puede cambiar el almacenamiento que se utiliza en un despliegue existente.
El valor se especifica con la propiedad
storageClass
en el recurso personalizado de servicios de voz:################ # Storage class ################ storageClass: "ocs-storagecluster-ceph-rbd"
Los servicios de voz funcionan con cualquiera de las versiones de OpenShift Container Storage. La versión recién recomendada tiene permisos de acceso más restrictivos. Para obtener más información, consulte
- Si está instalando los servicios de voz 4.0.6 o actualizando a los servicios de voz 4.0.6 desde IBM Cloud Pak for Data versión 3.5, especifique la clase de almacenamiento de
- El nuevo modelo beta
en-WW_Medical_Telephony
ya está disponible -
Ya está disponible una nueva versión beta de
en-WW_Medical_Telephony
de la próxima generación. El nuevo modelo entiende los términos de los dominios médico y farmacológico. Utilice el modelo en situaciones en las que necesite transcribir terminología médica común, como nombres de medicamentos, marcas de productos, procedimientos médicos, enfermedades, tipos de médicos o terminología relacionada con el COVID-19. Los casos de uso común incluyen conversaciones entre un paciente y un proveedor médico (por ejemplo, un médico, una enfermera o un farmacéutico).El nuevo modelo se instala desde el recurso personalizado de servicios de voz estableciendo
enWwMedicalTelephony
enenabled: true
. El modelo está disponible para todos los dialectos ingleses soportados: de Australia, India, R.U. y EE.UU.- El modelo soporta la personalización del modelo de idioma y las gramáticas como una funcionalidad beta.
- Da soporte a la mayoría de los mismos parámetros que el modelo
en-US_Telephony
. - no da soporte a los siguientes parámetros:
low_latency
,profanity_filter
,redaction
yspeaker_labels
. - En este momento, no da soporte a
smart_formatting
para IBM Cloud Pak for Data.
Para obtener más información, consulte El modelo de telefonía médica en inglés.
- Actualizar al modelo
zh-CN_Telephony
para chino -
El modelo de próxima generación
zh-CN_Telephony
para chino se ha actualizado para mejorar el reconocimiento de voz. El modelo sigue dando soporte a la baja latencia. De forma predeterminada, el servicio utiliza automáticamente el modelo actualizado para todas las solicitudes de reconocimiento de voz. Para obtener más información sobre todos los modelos de próxima generación disponibles, consulte Idiomas y modelos de próxima generación.Si tiene modelos de idioma personalizados basados en el modelo actualizado, debe actualizar los modelos personalizados existentes para aprovechar las actualizaciones utilizando el método
POST /v1/customizations/{customization_id}/upgrade_model
. Para obtener más información, consulte Actualización de modelos personalizados. - Actualización al modelo
ja-JP_Multimedia
para japonés para dar soporte a la baja latencia -
El modelo de próxima generación
ja-JP_Multimedia
para japonés ahora da soporte a la baja latencia. Puede utilizar el parámetrolow_latency
con las solicitudes de reconocimiento de voz que utilizan el modelo. No es necesario actualizar modelos personalizados basados en el modelo base actualizado para japonés. Para obtener más información sobre los modelos de próxima generación y la baja latencia, consulte Idiomas y modelos de próxima generación y Baja latencia.
11 de febrero de 2022 (Versión 4.0.5)
- Corrección de defectos: Mejora de la documentación de actualización del modelo personalizado y de la versión del modelo base
-
Arreglo de defecto: la documentación que describe la actualización de modelos personalizados y las series de versión que se utilizan para diferentes versiones de modelos base se ha actualizado. La documentación ahora indica que la actualización para la personalización del modelo de idioma también se aplica a los modelos de próxima generación. Además, se han actualizado las series de versión que representan versiones distintas de modelos base. Además, el parámetro
base_model_version
también se puede utilizar con modelos de próxima generación actualizados.Para obtener más información sobre la actualización del modelo personalizado, cuándo es necesario actualizar y cómo utilizar versiones anteriores de modelos personalizados, consulte
- Corrección de defectos: Actualización de la documentación sobre mayúsculas y minúsculas
-
Arreglo de defecto: la documentación que describe la capitalización automática del servicio de transcripciones se ha actualizado. El servicio capitaliza los nombres adecuados sólo para los siguientes idiomas y modelos:
- Todos los modelos para inglés de EE.UU. de la generación anterior
- El modelo de próxima generación para alemán
Para obtener más información, consulte Capitalización.
31 de enero de 2022 (Versión 4.0.5)
- Se ha actualizado la versión 4.0.5
-
Speech to Text para IBM Cloud Pak for Data versión 4.0.5 se ha actualizado para resolver problemas de instalación. La versión del paquete de casos ahora es 4.0.6. Utilice este paquete en lugar del paquete de la versión 4.0.5. Para obtener más información sobre cómo instalar y gestionar el servicio, consulte Instalación de Watson Speech to Text.
- Importante: ya no son necesarios pasos adicionales para la instalación duplicada
-
Importante: las Notas del release del 26 de enero de 2022 incluían notas importantes para los siguientes pasos:
- Paso adicional para realizar una instalación duplicada del almacén de datos Minio
- Pasos adicionales para realizar una instalación duplicada de nuevos modelos de próxima generación
Estos pasos adicionales ya no son necesarios. El paquete de casos se ha actualizado para corregir los problemas de instalación.
26 de enero de 2022 (Versión 4.0.5)
- Ahora está disponible la versión 4.0.5
-
Speech to Text para IBM Cloud Pak for Data versión 4.0.5 ya está disponible. Esta versión da soporte a IBM Cloud Pak for Data versión 4.x y Red Hat OpenShift versiones 4.6 y 4.8. Para obtener más información sobre cómo instalar y gestionar el servicio, consulte Instalación de Watson Speech to Text.
- Importante: paso adicional para realizar una instalación duplicada del almacén de datos Minio
-
Importante: estos pasos ya no son necesarios si instala el paquete de casos 4.0.6. Para más información, véase 31 de enero de 2022(Versión 4.0.5).
Si está realizando una instalación duplicada (por ejemplo, en un entorno aislado), debe realizar un paso adicional antes de completar cualquiera de los pasos siguientes:
- Paso 7 Duplicación de las imágenes en el registro privado de Duplicación de imágenes con un modelo de bastión
- Paso 8 Duplicación de las imágenes en el registro de contenedor intermediario de Duplicación de imágenes con un registro de contenedor intermediario
Este paso es obligatorio para copiar las imágenes necesarias para el almacén de datos Minio:
echo 'cp.icr.io,cp/opencontent-minio-client,1.1.4,sha256:7b4cf5e47a0455cfa7ca9ab246b80916e4dccbc1483b3e0f276fb7b0ab3e5c60,IMAGE,linux,x86_64,"",0,CASE,"",""' \ >> $CASE_PATH/ibm-watson-speech-4.0.5-images.csv
Si no se puede realizar este paso, se producirán errores de instalación para Speech to Text y Text to Speech.
- Importante: pasos adicionales para realizar una instalación duplicada de nuevos modelos de próxima generación
-
Importante: estos pasos ya no son necesarios si instala el paquete de casos 4.0.6. Para más información, véase 31 de enero de 2022(Versión 4.0.5).
Si está realizando una instalación duplicada (por ejemplo, para un entorno aislado) y tiene previsto instalar cualquiera de los nuevos modelos de próxima generación para Speech to Text (para obtener más información, consulte la última nota de release), debe realizar un paso adicional antes de completar cualquiera de los pasos siguientes:
- Paso 7 Duplicación de las imágenes en el registro de contenedor privado de Duplicación de imágenes con un modelo de bastión
- Paso 8 Duplicación de las imágenes en el registro de contenedor intermediario de Duplicación de imágenes con un registro de contenedor intermediario
Cada paso adicional es exclusivo del modelo que se está instalando. Si instala más de uno de los nuevos modelos, emita el mandato indicado para cada modelo que esté instalando.
-
Para el modelo de telefonía para chino (
zh-CN_Telephony
):echo 'cp.icr.io,cp/watson-speech/zh-cn-telephony,2022-01-05-405models,sha256:52af6dfccd64ccd81b409936442a51a71f4ee96d980e1fc6a343a05bd4ed7fbc,IMAGE,linux,x86_64,"",0,CASE,"",""' \ >> $CASE_PATH/ibm-watson-speech-4.0.5-images.csv
-
Para el modelo de telefonía para español de Latinoamérica (
es-LA_Telephony
):echo 'cp.icr.io,cp/watson-speech/es-la-telephony,2022-01-05-405models,sha256:58e8c04abe9659472e89bf0778b7dc66e0ddceb4ea18d9d3e048a08c72125ea2,IMAGE,linux,x86_64,"",0,CASE,"",""' \ >> $CASE_PATH/ibm-watson-speech-4.0.5-images.csv
-
Para el modelo multimedia para inglés de Australia (
en-AU_Multimedia
):echo 'cp.icr.io,cp/watson-speech/en-au-multimedia,2022-01-05-405models,sha256:167f9a76258530a56a6abdd1c311f2ea05d6820ee0e802fbf2f96f08fb8a7646,IMAGE,linux,x86_64,"",0,CASE,"",""' \ >> $CASE_PATH/ibm-watson-speech-4.0.5-images.csv
-
Para el modelo multimedia para inglés del Reino Unido (
en-GB_Multimedia
):echo 'cp.icr.io,cp/watson-speech/en-gb-multimedia,2022-01-05-405models,sha256:167f9a76258530a56a6abdd1c311f2ea05d6820ee0e802fbf2f96f08fb8a7646,IMAGE,linux,x86_64,"",0,CASE,"",""' \ >> $CASE_PATH/ibm-watson-speech-4.0.5-images.csv
- Ahora el servidor de licencias se instala automáticamente
-
El operador de servicios de voz ahora instala automáticamente el servidor de licencias necesario cuando instala los servicios de voz. Ya no es necesario instalar el servidor de licencias desde los servicios fundacionales de IBM Cloud Pak for Data y ya no es necesario utilizar contenido adicional del YAML para crear una OperandRequest con los enlaces necesarios.
- Eliminación de pasos específicos del servidor PostgreSQL EnterpriseDB
-
La versión anterior de la documentación incluía pasos para el servidor PostgreSQL EnterpriseDB que eran específicos de los servicios de voz. Estos pasos se documentaron en los temas Actualización de Watson Speech to Text (Versión 4.0) y Desinstalación de Watson Speech to Text. Estos pasos adicionales ya no son necesarios y se han eliminado de la documentación.
- El almacén de datos de RabbitMQ ahora sólo lo utiliza el componente
sttAsync
-
El almacén de datos de RabbitMQ lo han utilizado anteriormente los componentes de los servicios de voz, Speech to Text y también Text to Speech. Ahora maneja la gestión de colas de mensajes no persistentes para el componente HTTP asíncrono Speech to Text (
sttAsync
) únicamente. Sólo se utiliza si el componentesttAsync
está instalado y habilitado. - Nuevos modelos de próxima generación
-
El servicio ahora da soporte a los siguientes modelos de próxima generación con Speech to Text para IBM Cloud Pak for Data:
- Modelo de telefonía para chino (mandarín) (
zh-CN_Telephony
). El nuevo modelo admite la baja latencia. - Modelo multimedia para inglés (Australia) (
en-AU_Multimedia
). El nuevo modelo no da soporte a la baja latencia. - Modelo multimedia para inglés (Reino Unido) (
en-GB_Multimedia
). El nuevo modelo no admite la baja latencia. - Modelo de telefonía para español (Latinoamérica) (
es-LA_Telephony
). El nuevo modelo admite la baja latencia.
Nota: el modelo para español de Latinoamérica,
es-LA_Telephony
, se aplica a todos los dialectos latinoamericanos. Es el equivalente a los modelos de la generación anterior que están disponibles para los dialectos argentino, chileno, colombiano, mexicano y peruano. Si ha utilizado un modelo de la generación anterior para cualquiera de estos dialectos específicos, utilice el modeloes-LA_Telephony
para migrar al modelo de próxima generación equivalente.Los nuevos modelos están disponibles a nivel general para el reconocimiento de voz. Están disponibles a nivel general para la personalización del modelo de idioma y son beta para las gramáticas. No están soportados para la personalización de modelos acústicos.
- Importante: si está realizando una instalación duplicada (por ejemplo, en un entorno aislado) y tiene previsto instalar cualquiera de los nuevos modelos de próxima generación para Speech to Text, debe realizar pasos adicionales antes de duplicar las imágenes. Para obtener más información, consulte la nota del release anterior.
- Para obtener más información sobre cómo utilizar el recurso personalizado para instalar modelos, consulte Instalación de Watson Speech to Text.
- Para obtener más información sobre todos los modelos de próxima generación disponibles, consulte Idiomas y modelos de próxima generación.
- Para obtener más información sobre el soporte de personalización para modelos de próxima generación, consulte Soporte de personalización para modelos de próxima generación.
- Modelo de telefonía para chino (mandarín) (
- Ahora los modelos de próxima generación para inglés de EE.UU. están instalados de forma predeterminada
-
Los modelos de próxima generación para inglés de EE.UU.,
en-US_Multimedia
yen-US_Telephony
, ahora están instalados de forma predeterminada con Speech to Text para IBM Cloud Pak for Data. Estos modelos se unen aen-US_BroadbandModel
,en-US_NarrowbandModel
,en-US_ShortForm_NarrowbandModel
como los modelos que se instalan de forma predeterminada. Los modelos ahora tienen las siguientes entradas en el recurso personalizado de servicios de voz:######################################## # Speech to Text next-generation models ######################################## enUsMultimedia: # US English (en-US) Multimedia model enabled: true enUsTelephony: # US English (en-US) Telephony model enabled: true
For more information about using the custom resource to install models, see Installing Watson Speech to Text.
- Vulnerabilidades de seguridad abordadas
-
Se han corregido las siguientes vulnerabilidades de seguridad asociadas con Apache Log4j:
- Boletín de seguridad: Una vulnerabilidad en Apache Log4j puede afectar a IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data(CVE-2021-4104)
- Boletín de seguridad: IBM Watson Speech Services Cartridge for IBM Cloud Pak for Data es vulnerable a la denegación de servicio y ejecución de código arbitrario debido a Apache Log4j(CVE-2021-45105 y CVE-2021-45046)
20 de diciembre de 2021 (Versión 4.0.4)
- La versión 4.0.4 ya está disponible
-
Speech to Text para IBM Cloud Pak for Data versión 4.0.4 ya está disponible. Esta versión da soporte a IBM Cloud Pak for Data versión 4.x y Red Hat OpenShift versiones 4.6 y 4.8. Para obtener más información sobre cómo instalar y gestionar el servicio, consulte Instalación de Watson Speech to Text.
- Importante: cambios en las propiedades para inhabilitar el almacenamiento y el registro de datos de usuario
-
Importante: han cambiado los nombres de las propiedades del recurso personalizado de servicios de voz que especifican si los datos de usuario se almacenan y registran. El recurso personalizado contenía anteriormente las propiedades siguientes:
################# # Anonymize logs ################# sttRuntime: anonymizeLogs: "false" # If true, disables storage and logging of user data sttAMPatcher: anonymizeLogs: "false" # If true, disables storage and logging of user data ttsRuntime: anonymizeLogs: "false" # If true, disables storage and logging of user data
Estas propiedades se denominan ahora de la siguiente manera:
################################### # Storage and logging of user data ################################### sttRuntime: skipAudioAndResultLogging: "false" # If true, disables storage and logging of user data sttAMPatcher: skipAudioAndResultLogging: "false" # If true, disables storage and logging of user data ttsRuntime: skipAudioAndResultLogging: "false" # If true, disables storage and logging of user data
Si ya ha establecido estas propiedades en el recurso personalizado para cambiar el valor predeterminado de
false
atrue
, debe editar el recurso personalizado. Debe cambiar manualmente los nombres de las propiedades a los nuevos valores y guardar el recurso personalizado actualizado. Para obtener más información, consulte Instalación de Watson Speech to Text. - Importante: cambios en las propiedades del objeto de secretos de PostgreSQL
-
Importante: al instalar los servicios de voz, se crea de forma predeterminada un objeto que contiene una contraseña generada aleatoriamente para el almacén de datos de PostgreSQL. En su lugar, puede optar por especificar la contraseña manualmente. Si lo hace, las propiedades del archivo YAML para el objeto de secretos han cambiado. Para obtener más información, consulte el tema sobre la gestión de los almacenes de datos en Administración de Watson Speech to Text.
- Importante: los pods PostgreSQL no se inician con el operador EnterpriseDB versión 1.10
-
Importante: con Speech to Text para IBM Cloud Pak for Data versión 4.0.3, los pods PostgreSQL basados en el operador EnterpriseDB versión 1.10 pueden fallar y no iniciarse. Esto impide que se inicien los servicios de voz. Existe un método alternativo para este problema. Si los servicios de voz no se inician, consulte PostgreSQL pods do not start with EnterpriseDB version 1.10 operator para obtener información sobre cómo diagnosticar y resolver el problema.
Este problema se ha corregido en Speech to Text para IBM Cloud Pak for Data versión 4.0.4.
- Nuevo soporte para la clase de almacenamiento nativo del contenedor IBM Spectrum Scale
-
Desde la versión 4.0.3, los servicios de voz dan soporte a la clase de almacenamiento nativo del contenedor de IBM Spectrum® Scale. Para utilizar IBM Spectrum Scale, especifique
"ibm-spectrum-scale-sc"
para la propiedadstorageClass
del recurso personalizado de servicios de voz. Para obtener más información, consulte Instalación de Watson Speech to Text. - Interacción de servicios de voz con el almacén de datos MinIO durante la instalación
-
Los componentes de tiempo de ejecución de los servicios de voz,
sttRuntime
yttsRuntime
, no pueden iniciarse hasta que los modelos y las voces de los servicios se cargan completamente en el almacén de datos de MinIO. Durante la instalación, es posible que los servicios fallen y se reinicien automáticamente una o más veces hasta que se complete la carga de los modelos y las voces. A continuación, se inician correctamente. No se requiere ninguna acción de usuario. - Corrección de defectos: Corrección de la documentación de actualización
-
Arreglo de defecto: la documentación para actualizar los servicios de voz a las nuevas versiones de IBM Cloud Pak for Data versión 4.0.x incluía referencias incorrectas en algunos mandatos. Estas referencias ahora son correctas:
- Las series
watsonSpeechToTextStatus
ywatsonTextToSpeechStatus
han cambiado aspeechStatus
en ambos casos. - Las series
status.watsonSpeechToTextVersion
ystatus.watsonTextToSpeechVersion
han cambiado a.spec.version
en ambos casos.
Para obtener más información, consulte Actualización de Watson Speech to Text.
- Las series
- Importante: los modelos de idioma personalizados basados en determinados modelos de próxima generación deben volver a crearse
-
Importante: si ha creado modelos de idioma personalizados basados en determinados modelos de próxima generación, debe volver a crear los modelos personalizados. Hasta que vuelva a crear los modelos de idioma personalizados, las solicitudes de reconocimiento de voz que intentan utilizar los modelos personalizados fallan con el código de error HTTP 400.
Debe volver a crear los modelos de idioma personalizados que ha creado basándose en las siguientes versiones de los modelos de próxima generación:
- Para el modelo
en-AU_Telephony
, los modelos personalizados que ha creado deen-AU_Telephony.v2021-03-03
aen-AU_Telephony.v2021-10-04
. - Para el modelo
en-GB_Telephony
, los modelos personalizados que ha creado deen-GB_Telephony.v2021-03-03
aen-GB_Telephony.v2021-10-04
. - Para el modelo
en-US_Telephony
, los modelos personalizados que ha creado deen-US_Telephony.v2021-06-17
aen-US_Telephony.v2021-10-04
. - Para el modelo
en-US_Multimedia
, los modelos personalizados que ha creado deen-US_Multimedia.v2021-03-03
aen-US_Multimedia.v2021-10-04
.
Para identificar la versión de un modelo en el que se basa un modelo de idioma personalizado, utilice el método
GET /v1/customizations
para listar todos los modelos de idioma personalizados o el métodoGET /v1/customizations/{customization_id}
para listar un modelo de idioma personalizado específico. El campoversions
de la salida muestra el modelo base para un modelo de idioma personalizado. Para obtener más información, consulte Listado de modelos de lenguaje personalizado.Para volver a crear un modelo de idioma personalizado, primero cree un nuevo modelo personalizado. A continuación, añada todos los corpus y palabras personalizadas del modelo personalizado anterior al nuevo modelo. A continuación, puede suprimir el modelo personalizado anterior. Para obtener más información, consulte Creación de un modelo de idioma personalizado.
- Para el modelo
- Actualizaciones para varios modelos de próxima generación para mejorar el reconocimiento de voz
-
Los siguientes modelos de próxima generación se han actualizado para mejorar el reconocimiento de voz:
- Modelo de telefonía para inglés de Australia (
en-AU_Telephony
) - Modelo de telefonía para inglés del Reino Unido (
en-GB_Telephony
) - Modelo multimedia para inglés de EE.UU. (
en-US_Multimedia
) - Modelo de telefonía para inglés de EE.UU. (
en-US_Telephony
) - Modelo de telefonía para español de España (
es-ES_Telephony
)
Para obtener más información sobre todos los modelos de próxima generación disponibles, consulte Idiomas y modelos de próxima generación.
- Modelo de telefonía para inglés de Australia (
- Nuevo soporte de gramática beta para modelos de próxima generación
-
El soporte de gramática ya está disponible como funcionalidad beta para todos los modelos de próxima generación disponibles. Todos los modelos de próxima generación están generalmente disponibles (GA) y soportan la personalización del modelo de idioma. Para obtener más información, consulte los siguientes temas:
- Para obtener más información sobre el estado del soporte de gramática para modelos de próxima generación, consulte Soporte de personalización para modelos de próxima generación.
- Para obtener más información sobre gramáticas, consulte Gramáticas.
- Nuevo campo
custom_acoustic_model
para las características soportadas -
Los métodos
GET /v1/models
yGET /v1/models/{model_id}
ahora informan si un modelo da soporte a la personalización del modelo acústico. El objetoSupportedFeatures
ahora incluye un campo adicional,custom_acoustic_model
, un booleano que estrue
para un modelo que da soporte a la personalización de modelos acústicos yfalse
para lo demás. Actualmente, el campo estrue
para todos los modelos de generación anterior yfalse
para todos los modelos de próxima generación.- Para obtener más información sobre estos métodos, consulte Listado de información sobre modelos.
- Para obtener más información sobre el soporte para la personalización de modelos acústicos, consulte Soporte de idiomas para la personalización.
- Vulnerabilidad de seguridad corregida
-
Se ha corregido la siguiente vulnerabilidad de seguridad asociada con Apache Log4j:
20 de diciembre de 2021 (Versión 1.2.x)
- Importante: ya no puede instalar Speech to Text versión 1.2.x en IBM Cloud Pak for Data versión 3.5
-
Importante: ya no puede realizar nuevas instalaciones de Speech to Text versión 1.2.x en IBM Cloud Pak for Data versión 3.5. Solo puede instalar Speech to Text versión 4.0.x en IBM Cloud Pak for Data versión 4.x. Para obtener más información, consulte Instalación de Watson Speech to Text.
Los servicios de voz para IBM Cloud Pak for Data versión 3.5 alcanzan su fecha de finalización de soporte el 30 de abril de 2022. Se le recomienda que actualice a la versión más reciente del release 4.0.x de los servicios a la mayor brevedad posible. Para obtener más información, consulte Actualización de Watson Speech to Text.
30 de noviembre de 2021 (Versión 4.0.3)
- La versión 4.0.3 ya está disponible
-
Speech to Text para IBM Cloud Pak for Data versión 4.0.3 ya está disponible. Esta versión da soporte a IBM Cloud Pak for Data versión 4.x y Red Hat OpenShift versiones 4.6 y 4.8. Para obtener más información sobre cómo instalar y gestionar el servicio, consulte Instalación de Watson Speech to Text.
- El servidor de licencias ahora es un requisito previo obligatorio
-
Ahora debe instalar el servidor de licencias desde los servicios fundacionales de IBM Cloud Pak for Data. Debe instalar el servidor de licencias utilizando el contenido de YAML que se proporciona para crear un OperandRequest con los enlaces necesarios. También debe instalar el servicio de licencias en el mismo espacio de nombres que el servicio (operando), que también es donde está instalado IBM Cloud Pak for Data. Para obtener más información, consulte Instalación de Watson Speech to Text.
- Nuevo soporte para la actualización in situ
-
El servicio ahora da soporte a la actualización in situ, basada en el operador, de la versión 4.0.0 a la versión 4.0.3. El paso de IBM Cloud Pak for Data versión 3.5 a la versión 4.0.3 sigue requiriendo el uso de programas de utilidad de migración. Para obtener más información, consulte Actualización de Watson Speech to Text.
- Cambios de instalación de operador y licencia de EDB PostgreSQL
-
La instalación, actualización y desinstalación del operador y la licencia de Enterprise DB PostgreSQL han cambiado:
- Las instrucciones para instalar el operador y la licencia de EDB PostgreSQL se incluyen ahora con los servicios fundacionales de IBM Cloud Pak for Data. Las instrucciones para instalar los servicios de voz se han actualizado en consecuencia. Para obtener más información, consulte Instalación de Watson Speech to Text.
- Las instrucciones para actualizar de Speech to Text versión 4.0.0 a 4.0.3 incluyen instrucciones para desinstalar el operador EDB PostgreSQL anterior y la licencia y reinstalarlos con los servicios fundacionales de IBM Cloud Pak for Data. Para obtener más información, consulte Actualización de Watson Speech to Text.
- Las instrucciones para desinstalar los servicios de voz ahora incluyen pasos para eliminar el operador y la licencia de EDB PostgreSQL que se instalaron previamente con Speech to Text. Para obtener más información, consulte Desinstalación de Watson Speech to Text.
- Nueva guía para ampliar la instalación
-
El servicio ahora proporciona una guía actualizada sobre la ampliación de la instalación. La información incluye la especificación del número de pods, el número de CPU asignadas por pod y el número máximo de sesiones simultáneas con modelos anteriores y de próxima generación. Para obtener más información, consulte Administración de Watson Speech to Text.
- Actualizaciones de línea de mandatos para programas de utilidad de importación y exportación
-
Los mandatos que se utilizan con los programas de utilidad de importación y exportación para los servicios de voz incluyen nuevas opciones y argumentos. Los programas de utilidad de importación y exportación también son la base para la copia de seguridad y restauración de los servicios y para la migración de IBM Cloud Pak for Data versión 3.5 a la versión 4.0.3. Para obtener más información sobre el uso de los programas de utilidad, consulte
- Nueva propiedad para especificar las CPU para el entrenamiento de modelos acústicos
-
El microservicio de
sttAMPatcher
gestiona la personalización de modelos acústicos para el servicio. AM Patcher utiliza un número dedicado de CPU para gestionar solicitudes. Puede utilizar la nueva propiedadsttAMPatcher.resources.requestsCPU
para aumentar el número de CPU que se dedican al manejo de solicitudes de entrenamiento de modelos acústicos por parte de AM Patcher. Esto puede ser necesario si usted experimenta anomalías de entrenamiento durante el entrenamiento de modelos acústicos. Para obtener más información, consulte Instalación de Watson Speech to Text. - Nuevos modelos de próxima generación
-
El servicio ahora da soporte a los siguientes nuevos modelos de idioma de próxima generación. Todos los nuevos modelos están disponibles a nivel general.
- Checo:
cs-CZ_Telephony
. El modelo soporta la baja latencia. - Holandés de Bélgica (flamenco):
nl-BE_Telephony
. El modelo soporta la baja latencia. - Francés:
fr-FR_Multimedia
. El nuevo modelo no da soporte a la baja latencia. - Inglés de la India:
en-IN_Telephony
. El modelo soporta la baja latencia. - Hindi de la India:
hi-IN_Telephony
. El modelo soporta la baja latencia. - Japonés:
ja-JP_Multimedia
. El modelo no da soporte a la baja latencia. - Coreano:
ko-KR_Multimedia
. El modelo no da soporte a la baja latencia. - Coreano:
ko-KR_Telephony
. El modelo soporta la baja latencia. - Holandés de los Países Bajos:
nl-NL_Telephony
. El modelo soporta la baja latencia.
Para obtener más información sobre todos los modelos de próxima generación y sobre la baja latencia, consulte Idiomas y modelos de próxima generación y Baja latencia.
- Checo:
- Actualizaciones de modelos de próxima generación
-
Los siguientes modelos de próxima generación se han actualizado para mejorar el reconocimiento de voz. Todos los modelos están disponibles a nivel general.
- Árabe:
ar-MS_Telephony
. El modelo ahora da soporte a la baja latencia. - Portugués de Brasil:
pt-BR_Telephony
. El modelo sigue dando soporte a la baja latencia. - Inglés de Estados Unidos:
en-US_Telephony
. El modelo sigue dando soporte a la baja latencia. - Francés de Canadá:
fr-CA_Telephony
. El modelo ahora da soporte a la baja latencia. - Italiano:
it-IT_Telephony
. El modelo ahora da soporte a la baja latencia.
Para obtener más información sobre todos los modelos de próxima generación y sobre la baja latencia, consulte Idiomas y modelos de próxima generación y Baja latencia.
- Árabe:
- Corrección de defectos: Solución de los fallos asíncronos de HTTP
-
Arreglo de defecto: la interfaz HTTP asíncrona no ha podido transcribir algún audio. Además, la devolución de llamada para la solicitud ha devuelto el estado
recognitions.completed_with_results
en lugar derecognitions.failed
. Este error se ha resuelto. - Arreglo de defectos: Mejorar los resultados de las etiquetas de los altavoces
-
Arreglo de defecto: cuando utiliza etiquetas de orador con modelos de próxima generación, el servicio ahora identifica el orador para todas las palabras del audio de entrada, incluidas palabras muy cortas que tienen las mismas indicaciones de fecha y hora de inicio y final.
- Corrección de defectos: Actualización de los resultados provisionales y de la documentación sobre baja latencia
-
Arreglo de defecto: la documentación que describe las características de resultados provisionales y de baja latencia con los modelos de próxima generación se ha reescrito para obtener una mayor claridad y corrección. Para obtener más información, consulte los siguientes temas:
- Corrección de defectos: Corrección de la documentación sobre multitenencia
-
Arreglo de defectos: El tema IBM Cloud Pak for Data Soporte de multitenencia ha indicado incorrectamente que los servicios Speech no dan soporte a multitenencia. El tema se ha actualizado para indicar que los servicios de voz dan soporte a las operaciones siguientes:
- Instalar el servicio en proyectos distintos
- Instalar el servicio varias veces en el mismo proyecto
- Instalar el servicio una vez y desplegar varias instancias en el mismo proyecto
La documentación específica de los servicios de voz indicaba correctamente el soporte de multitenencia.
1 de octubre de 2021 (Versión 1.1.x)
- La versión 1.1.x está fuera de servicio
- Speech to Text y Text to Speech para IBM Cloud Pak for Data versión 1.1.x se dejaron fuera de servicio el 30 de septiembre de 2021. A partir del 1 de octubre de 2021, la documentación de la versión 1.1.x ya no está disponible. Para obtener más información, consulte Retirada de software y interrupción de soporte.
31 de agosto de 2021 (Versión 4.0.0)
- Todos los modelos de próxima generación están ahora disponibles de forma general
-
Todos los modelos de idioma de próxima generación ahora ya están disponibles a nivel general (GA). Están soportados para su uso en entornos de producción y aplicaciones.
- Para obtener más información sobre todos los modelos de idioma de próxima generación y qué modelos están actualmente disponibles para IBM Cloud Pak for Data, consulte Idiomas y modelos de próxima generación.
- Para obtener más información sobre las características soportadas para cada modelo de próxima generación, consulte Características soportadas para modelos de próxima generación.
- La personalización del modelo de idioma para los modelos de próxima generación ahora está disponible de forma general
-
La personalización del modelo de idioma ahora está disponible de forma general (GA) para todos los modelos e idiomas disponibles de la próxima generación. La personalización del modelo de idioma para los modelos de próxima generación está soportada para su uso en entornos de producción y aplicaciones.
Puede utilizar los mismos mandatos para crear, gestionar y utilizar modelos de idioma personalizado, corpus y palabras personalizadas para modelos de próxima generación como lo hace para los modelos de la generación anterior. Pero la personalización para los modelos de próxima generación funciona de forma diferente a la personalización para los modelos de la generación anterior. Para los modelos personalizados basados en modelos de próxima generación:
- Los modelos personalizados no tienen ningún concepto de las palabras fuera del vocabulario (OOV).
- Las palabras del corpus no se añaden al recurso de palabras.
- Actualmente no puede utilizar la característica de pronunciación para las palabras personalizadas.
- No es necesario actualizar los modelos personalizados cuando se actualizan los modelos de idioma base.
- Actualmente, las gramáticas no están soportadas.
Para obtener más información sobre cómo utilizar la personalización del modelo de idioma para modelos de próxima generación, consulte
- Comprender la personalización
- Soporte de idiomas para la personalización
- Creación de un modelo de lenguaje personalizado
- Utilización de un modelo de idioma personalizado para el reconocimiento de voz
- Trabajar con corpus y palabras personalizadas para modelos de próxima generación
Los temas adicionales describen la gestión de modelos de idioma personalizado, corpus y palabras personalizadas.
29 de julio de 2021 (Versión 4.0.0)
- La versión 4.0.0 está disponible
-
IBM Watson® Speech to Text para IBM Cloud Pak® for Data versión 4.0.0 ya está disponible. La instalación y la administración del servicio incluyen muchos cambios. Esta versión da soporte a IBM Cloud Pak for Data versión 4.x y Red Hat OpenShift versión 4.6. Para obtener más información sobre cómo instalar y gestionar el servicio, consulte Instalación de IBM Watson Speech to Text para IBM Cloud Pak for Data.
- Nuevos modelos de idioma de próxima generación
-
El servicio ahora da soporte a un número creciente de modelos de idioma de próxima generación. Los modelos multimedia y de telefonía de próxima generación mejoran las capacidades de reconocimiento de voz de la generación anterior de modelos de servicio de banda ancha y banda estrecha. Los nuevos modelos aprovechan las redes neuronales profundas y el análisis bidireccional para lograr un mayor rendimiento y una mayor precisión de la transcripción.
En este momento, los modelos de idioma de próxima generación y el parámetro
low_latency
son una funcionalidad beta. Los modelos de próxima generación soportan un número limitado de idiomas y características de reconocimiento de voz. Los idiomas, modelos y características soportados aumentarán con futuros releases.Muchos de los modelos de próxima generación también dan soporte a un nuevo parámetro
low_latency
que le permite solicitar resultados más rápidamente en detrimento posiblemente de reducir la calidad de la transcripción. Cuando la baja latencia está habilitada, el servicio restringe su análisis del audio, lo que puede reducir la precisión de la transcripción. Esta compensación puede ser aceptable si su aplicación requiere un tiempo de respuesta más bajo que la precisión más alta posible.El parámetro
low_latency
afecta al uso del parámetrointerim_results
con la interfaz WebSocket. Los resultados provisionales sólo están disponibles para los modelos de próxima generación que dan soporte a una baja latencia y sólo si los parámetrosinterim_results
ylow_latency
están establecidos entrue
.- Para obtener más información sobre los modelos de próxima generación y sus posibilidades, consulte Idiomas y modelos de próxima generación.
- Para obtener más información sobre el soporte de idiomas para modelos de próxima generación y sobre qué modelos de próxima generación soportan la baja latencia, consulte Modelos de idioma de próxima generación.
- Para obtener más información sobre la compatibilidad de funciones con los modelos de nueva generación, consulte Funciones compatibles con los modelos de nueva generación.
- Para obtener más información sobre el parámetro
low_latency
, consulte Baja latencia. - Para obtener más información sobre la interacción entre los parámetros
low_latency
yinterim_results
para los modelos de próxima generación, consulte Solicitud de resultados provisionales y baja latencia.
- Modelo de idioma de banda ancha para árabe renombrado
-
El modelo de banda ancha para árabe ahora se llama
ar-MS_BroadbandModel
. El nombre anterior,ar-AR_BroadbandModel
, está en desuso. Continuará funcionando durante al menos un año, pero podría ser eliminado en una fecha futura. Se le anima a migrar al nuevo nombre a la mayor brevedad posible. - Documentación de Speech to Text unificada
-
La documentación de IBM Watson Speech to Text para IBM Cloud Pak for Data ahora se combina con la documentación para instancias gestionadas del servicio Speech to Text que están alojadas en IBM Cloud. Esto es cierto tanto en la guía como en la documentación de referencia para las dos formas del servicio. Los enlaces a la versión anteriormente separada de la documentación de IBM Cloud Pak for Data para el servicio redirigen a la documentación unificada.
Para obtener más información sobre cómo identificar información que pertenece a una sola versión del producto, consulte Acerca de Speech to Text.
- Arreglo de defecto: Mejorar la documentación
-
Corrección de defectos: Se ha actualizado la documentación para corregir la siguiente información:
- La documentación no indica que los modelos de próxima generación no producen marcadores de duda. La documentación se ha actualizado para señalar que solo los modelos de la generación anterior producen marcadores de duda. Los modelos de próxima generación incluyen las vacilaciones reales en los resultados de la transcripción. Para obtener más información, consulte Titubeos y marcadores de duda.
- La documentación indicaba incorrectamente que el uso del parámetro
smart_formatting
hace que el servicio elimine los marcadores de duda de los resultados finales de la transcripción para japonés. El formateo inteligente no elimina los marcadores de duda de los resultados finales para el japonés, sólo para el inglés de EE.UU. Para obtener más información, consulte ¿A qué resultados afecta el formateo inteligente?
- La versión 1.1.x está fuera de servicio
-
Speech to Text y Text to Speech para IBM Cloud Pak for Data versión 1.1.x estarán fuera de servicio el 30 de septiembre de 2021. Debe actualizar a una versión posterior de los servicios en IBM Cloud Pak for Data antes de esa fecha. A partir del 1 de octubre de 2021, la documentación de la versión 1.1.4 dejará de estar disponible.
12 de abril de 2021 (Versión 1.2.1)
- Añadir al archivo
speech-override.yaml
-
El archivo
speech-override.yaml
mínimo incluye una definición adicional,dockerRegistryPrefix
:global: dockerRegistryPrefix: "{Registry}" image: pullSecret: "{Registry_pull_secret}"
{Registry}
es la vía de acceso para el registro interno de Docker. Debe serimage-registry.openshift-image-registry.svc:5000/{namespace}
, donde{namespace}
es el espacio de nombres en el que está instalado IBM Cloud Pak® for Data, normalmentezen
.
9 de abril de 2021 (Versión 1.2.1)
- Soporte para modificar modelos y voces instalados
- Los servicios de voz le permiten añadir o eliminar modelos y voces instalados para la versión 1.2 o 1.2.1 de los servicios.
Versión 1.2.1 (26 de marzo de 2021)
- La versión 1.2.1 está disponible
-
Speech to Text para IBM Cloud Pak for Data versión 1.2.1 ya está disponible. Las versiones 1.2 y 1.2.1 utilizan la misma documentación e instrucciones de instalación de la versión 1.2. La versión 1.2.1 soporta la instalación en Red Hat OpenShift versión 4.6 además de las versiones 4.5 y 3.11.
- Nuevas instrucciones de instalación
-
Tanto para los clústeres conectados a Internet como para los clústeres aislados, las instrucciones de instalación incluyen los pasos siguientes:
- Utilice el mandato
oc label
para configurar las etiquetas necesarias para el espacio de nombres donde está instalado IBM Cloud Pak for Data. - Utilice el mandato
oc project
para asegurarse de que apunta al proyecto OpenShift correcto. - Utilice el mandato
cpd-cli install
para instalar un servidor Enterprise DB PostgreSQL utilizado por los servicios de voz.
Realice estos pasos antes de instalar los servicios de voz.
- Utilice el mandato
- Nuevas instrucciones de desinstalación
-
Se ha añadido un paso al procedimiento para desinstalar los servicios de voz para limpiar todos los recursos de la instalación.
- Registro autorizado para el almacén de datos PostgreSQL
-
La vía de acceso de registro autorizada desde la que el servicio extrae imágenes para el almacén de datos de PostgreSQL ha cambiado. La ubicación del registro ha cambiado de
cp.icr.io/cp/watson-speech
acp.icr.io/cp/cpd
. Este cambio es transparente para los usuarios. - Secretos para almacenes de datos Minio y PostgreSQL
-
Los almacenes de datos Minio y PostgreSQL requieren los siguientes valores codificados para sus secretos:
- Para Minio, utilice
minio
. - Para PostgreSQL, utilice
user-provided-postgressql
.
No puede utilizar sus propios valores para estos secretos. Los secretos deben crearse antes de instalar los servicios de voz.
- Para Minio, utilice
- Supresiones del archivo
speech-override.yaml
-
Se han eliminado las entradas siguientes del archivo
speech-override.yaml
. Se añadieron para solucionar temporalmente un problema que ahora se ha arreglado.sttRuntime: images: miniomc: tag: 1.0.5 sttAMPatcher: images: miniomc: tag: 1.0.5 ttsRuntime: images: miniomc: tag: 1.0.5
El archivo
speech-override.yaml
abreviado generalmente se ha reducido aún más ajustando su contenido a los elementos básicos.
Versión 1.2 (9 de diciembre de 2020)
- La versión 1.2 está disponible
-
Speech to Text for IBM Cloud Pak for Data versión 1.2 ya está disponible. La instalación y la administración del servicio incluyen muchos cambios. Esta versión da soporte a IBM Cloud Pak for Data versiones 3.5 y 3.0.1, y Red Hat OpenShift versiones 4.5 y 3.11.
- Nuevos modelos para inglés de Australia y francés de Canadá
-
Ahora el servicio ofrece modelos de banda ancha y banda estrecha para inglés de Australia y francés de Canadá:
- Inglés de Australia:
en-AU_BroadbandModel
yen-AU_NarrowbandModel
- Francés de Canadá:
fr-CA_BroadbandModel
yfr-CA_NarrowbandModel
Los nuevos modelos están disponibles a nivel general, y dan soporte a la personalización del modelo de lenguaje y del modelo acústico.
- Para obtener más información sobre los idiomas y modelos soportados, consulte Idiomas y modelos de la generación anterior.
- Para obtener más información sobre el soporte de idiomas para la personalización, consulte Soporte de idiomas para la personalización.
- Inglés de Australia:
- Modelos actualizados para mejorar el reconocimiento de voz
-
Los siguientes modelos de lenguaje se han actualizado para mejorar el reconocimiento de voz:
- Portugués de Brasil:
pt-BR_BroadbandModel
ypt-BR_NarrowbandModel
- Francés:
fr-FR_BroadbandModel
- Alemán:
de-DE_BroadbandModel
yde-DE_NarrowbandModel
- Japonés:
ja-JP_BroadbandModel
- Inglés del Reino Unido:
en-GB_BroadbandModel
yen-GB_NarrowbandModel
- Inglés de Estados Unidos:
en-US_ShortForm_NarrowbandModel
De forma predeterminada, el servicio utiliza automáticamente los modelos actualizados para todas las solicitudes de reconocimiento de voz. Si tiene modelos de lenguaje personalizado o acústico personalizado que se basan en estos modelos, debe actualizar los modelos personalizados existentes para aprovechar las actualizaciones mediante los métodos siguientes:
POST /v1/customizations/{customization_id}/upgrade_model
POST /v1/acoustic_customizations/{customization_id}/upgrade_model
Para obtener más información, consulte Actualización de modelos personalizados.
- Portugués de Brasil:
- El parámetro
split_transcript_at_phrase_end
ahora ya está disponible a nivel general para todos los idiomas -
El parámetro de reconocimiento de voz
split_transcript_at_phrase_end
ahora está disponible a nivel general para todos los idiomas. Anteriormente, solo estaba disponible a nivel general para inglés de EE.UU. y del Reino Unido. Para obtener más información, consulte División de la transcripción al final de la frase. - El marcador de duda para el alemán ha cambiado
-
El marcador de duda que se utiliza para la banda ancha para el alemán se ha actualizado y los modelos de banda estrecha han cambiado de
[hesitation]
a%HESITATION
. Para obtener más información sobre los marcadores de duda, consulte Voz vacilaciones y marcadores de duda. - Corrección de defectos: Resolución del problema de latencia en modelos con un gran número de gramáticas
-
Arreglo de defectos: el servicio ya no tiene un problema de latencia para los modelos de idioma personalizados que contienen un gran número de gramáticas. Cuando se utilizan inicialmente para el reconocimiento de voz, estos modelos personalizados pueden tardar varios segundos en cargarse. Ahora los modelos personalizados se cargan mucho más rápido, reduciendo significativamente la latencia cuando se utilizan para el reconocimiento.
15 de julio de 2020 (Versión 1.1.4)
- Red Hat OpenShift versión 4.3 está fuera de servicio
- IBM Cloud Pak for Data 3.0.1 deja de dar soporte a Red Hat OpenShift 4.3 a partir del 1 de septiembre de 2020. Red Hat OpenShift 4.3 estará fuera de servicio el 22 octubre 2020. IBM Cloud Pak for Data está introduciendo soporte para Red Hat OpenShift 4.5. IBM Cloud Pak for Data recomienda que los clientes actualicen a Red Hat OpenShift 4.5 antes del 22 de octubre de 2020. El equipo de soporte de IBM trabajará con los clientes que ya tengan instalado IBM Cloud Pak for Data 3.0.1 en Red Hat OpenShift 4.3. Los nuevos clientes que quieran instalarse en Red Hat OpenShift 4.x deberán instalar Red Hat OpenShift 4.5.
19 de junio de 2020 (Versión 1.1.4)
- La versión 1.1.4 está disponible
-
Speech to Text para IBM Cloud Pak for Data versión 1.1.4 ya está disponible. La instalación y la administración del servicio incluyen muchos cambios. Esta versión da soporte a las versiones 2.5 y 3.0.1 de IBM Cloud Pak for Data y a las versiones 3.11 y 4.3 de Red Hat OpenShift. Para más información sobre la instalación y gestión del servicio, consulte ' Instalación y gestión de " Speech to Text para " IBM Cloud Pak for Data.
- Nuevos parámetros para controlar el nivel de detección de actividad del habla
-
Ahora el servicio ofrece dos nuevos parámetros opcionales para controlar el nivel de detección de actividad de voz. Los parámetros pueden ayudar a garantizar que solo se procese el audio relevante para el reconocimiento de voz.
- El parámetro
speech_detector_sensitivity
ajusta la sensibilidad de la detección de actividad de voz. Puede utilizar el parámetro para suprimir las inserciones de palabras procedentes de música, tos y otros sucesos que no sean de voz. - El parámetro
background_audio_suppression
suprime el audio de fondo en función de su volumen para evitar que se transcriba o que interfiera de algún modo en el reconocimiento de voz. Puede utilizar el parámetro para suprimir las conversaciones secundarias o el ruido de fondo.
Puede utilizar los parámetros de forma individual o conjunta. Están disponibles para todas las interfaces y para la mayoría de los modelos de lenguaje. Para obtener más información acerca de los parámetros, sus valores permitidos y su efecto sobre la calidad y la latencia del reconocimiento de voz, consulte Detección de actividad de voz.
- El parámetro
- Nuevos modelos de banda ancha y banda estrecha para holandés e italiano
-
Ahora el servicio ofrece modelos de banda ancha y de banda estrecha para los idiomas holandés e italiano:
- Modelo de banda ancha holandés (
nl-NL_BroadbandModel
) - Modelo de banda estrecha holandés (
nl-NL_NarrowbandModel
) - Modelo de banda ancha italiano (
it-IT_BroadbandModel
) - Modelo de banda estrecha italiano (
it-IT_NarrowbandModel
)
Los modelos de los idiomas holandés e italiano están actualmente disponibles a nivel general (GA) para el reconocimiento de voz y para la personalización del modelo de lenguaje y del modelo acústico. Para obtener más información sobre todos los modelos de lenguaje disponibles, consulte
- Modelo de banda ancha holandés (
- Soporte para el parámetro
speaker_labels
para alemán y coreano -
Ahora el servicio da soporte a las etiquetas de orador (el parámetro
speaker_labels
) para los modelos en los idiomas alemán y coreano. Las etiquetas de orador identifican qué persona ha pronunciado cada palabra en un intercambio con varios participantes. Para obtener más información, consulte Etiquetas de orador. - Reconocimiento de voz mejorado para el modelo de banda estrecha para japonés
-
El modelo de banda estrecha japonés (
ja-JP_NarrowbandModel
) ahora incluye algunas unidades de palabras multigramo para dígitos y fracciones decimales. El servicio devuelve estas unidades multigramo independientemente de si ha habilitado el formateo inteligente. La característica de formateo inteligente entiende y devuelve las unidades multigramo que genera el modelo. Si aplica su propio postproceso a los resultados de la transcripción, deberá manejar estas unidades adecuadamente. Para obtener más información, consulte Japonés en la documentación de formateo inteligente. - Copia de seguridad y restauración simplificadas
-
Ahora el servicio ofrece mejores procedimientos de copia de seguridad y restauración. Ahora dispone de programas de utilidad para hacer copia de seguridad de los datos de los almacenes de datos, por lo que ya no es necesario volver a crear todos los datos en caso de desastre. Para obtener más información, Copia de seguridad y restauración de Watson Datos de servicios de voz.
1 de abril de 2020 (Versión 1.1.3)
- La personalización de modelos acústicos ya está disponible a nivel general
- La personalización del modelo acústico ahora está disponible a nivel general (GA) para todos los idiomas soportados. Para obtener más información sobre el soporte de modelos de lenguaje individuales, consulte Soporte de idiomas para la personalización.
28 de febrero de 2020 (Versión 1.1.3)
- La versión 1.1.3 está disponible
-
Speech to Text para IBM Cloud Pak for Data versión 1.1.3 ya está disponible.
- Nuevo parámetro
end_of_phrase_silence_time
-
Para el reconocimiento de voz, ahora el servicio da soporte al parámetro
end_of_phrase_silence_time
. El parámetro especifica la duración del intervalo de pausa en el que el servicio divide una transcripción en varios resultados finales. Cada resultado final indica una pausa o un silencio largo que supera el intervalo de pausa. En el caso de la mayoría de los idiomas, el intervalo de pausa predeterminado es de 0,8 segundos; en el caso del chino, el intervalo es de 0,6 segundos.Puede utilizar el parámetro establecer un equilibrio entre la frecuencia con la que se genera un resultado final y la precisión de la transcripción. Aumente el intervalo cuando la precisión sea más importante que la latencia. Reduzca el intervalo cuando se espere que el orador pronuncie frases cortas o respuestas de una sola palabra.
Para obtener más información, consulte Tiempo de silencio de fin de frase.
- Nuevo parámetro
split_transcript_at_phrase_end
-
Para el reconocimiento de voz, ahora el servicio da soporte al parámetro
split_transcript_at_phrase_end
. El parámetro indica al servicio que divida la transcripción en varios resultados finales en función de las características semánticas de la entrada. El servicio basa su comprensión de las características semánticas en el modelo de lenguaje base que utilice con una solicitud. Los modelos de lenguaje personalizado y las gramáticas también afectan a la forma en que el servicio divide una transcripción.El parámetro hace que el servicio añada un campo
end_of_utterance
a cada resultado final para indicar el objetivo de la división:full_stop
,silence
,end_of_data
oreset
.Para obtener más información, consulte División de la transcripción al final de la frase.
- Parámetro
speaker_labels
mejorado -
Para el reconocimiento de voz, el parámetro
speaker_labels
se ha actualizado para mejorar la identificación de los oradores individuales para un análisis adicional de la muestra de audio. Para obtener más información acerca de la característica de etiquetas de orador, consulte Etiquetas de orador. Para más información sobre las mejoras de la función, consulte IBM Research AI Advances Speaker Diarization in Real Use Cases.
27 de noviembre de 2019 (Versión 1.1.2)
- La versión 1.1.2 está disponible
- Speech to Text para IBM Cloud Pak for Data versión 1.1.2 ya está disponible.
- Número máximo de modelos personalizados
- No puede crear más de 1024 modelos de lenguaje personalizado y no más de 1024 modelos acústicos personalizados por credencial de propietario. Para obtener más información, consulte Número máximo de modelos personalizados.
30 de agosto de 2019 (Versión 1.0.1)
- La versión 1.0.1 está disponible
-
Speech to Text para IBM Cloud Pak for Data versión 1.0.1 ya está disponible. Ahora el servicio funciona con la versión 2.1.0.1 de IBM Cloud Pak for Data. El servicio ahora da soporte a la instalación de IBM Cloud Pak for Data con Red Hat OpenShift.
- Nuevos modelos de banda ancha y banda estrecha para dialectos de español
-
El servicio ahora ofrece modelos de lenguajes de banda ancha y banda estrecha en seis dialectos del español:
- Español argentino (
es-AR_BroadbandModel
yes-AR_NarrowbandModel
) - Español castellano (
es-ES_BroadbandModel
yes-ES_NarrowbandModel
) - Español chileno (
es-CL_BroadbandModel
yes-CL_NarrowbandModel
) - Español colombiano (
es-CO_BroadbandModel
yes-CO_NarrowbandModel
) - Español mexicano (
es-MX_BroadbandModel
yes-MX_NarrowbandModel
) - Español peruano (
es-PE_BroadbandModel
yes-PE_NarrowbandModel
)
Los modelos de español castellano no son nuevos. Suelen estar disponibles para el reconocimiento de voz y la personalización del modelo de lenguaje, y las versiones beta para la personalización del modelo acústico.
Los modelos de los otros cinco dialectos son nuevos y son versiones beta para todos los usos. Puesto que son versiones beta, puede que estos dialectos adicionales no estén listos para su uso en producción y sujetos a cambios. Se trata de ofertas iniciales que se espera que mejoren la calidad por lo que hace al tiempo y al uso.
Para obtener más información, consulte las secciones siguientes:
- Español argentino (
- Soporte de FISMA
-
El soporte de Federal Information Security Management Act (FISMA) ya está disponible para Speech to Text para IBM Cloud Pak for Data. El servicio es FISMA High Ready.
28 de junio de 2019 (Versión 1.0.0)
- La versión 1.0.0 está disponible
-
La versión 1.0.0, el release inicial del servicio, ya está disponible. Speech to Text para IBM Cloud Pak for Data se basa en el servicio IBM Watson® Speech to Text de IBM Cloud público. Speech to Text para IBM Cloud Pak for Data difiere del servicio de Speech to Text público de las siguientes maneras. Es posible que encuentre útil esta información si está familiarizado con el servicio Speech to Text en IBM Cloud público.
- Speech to Text for IBM Cloud Pak for Data utiliza señales de acceso para la autenticación. Para obtener más información, consulte la Referencia de API y SDK.
- Los puntos finales de Speech to Text for IBM Cloud Pak for Data son específicos del clúster de IBM Cloud Pak for Data. Para obtener más información, consulte la Referencia de API y SDK.
- Speech to Text for IBM Cloud Pak for Data no efectúa ningún registro de solicitudes. No es necesario que utilice la cabecera de solicitud
X-Watson-Learning-Opt-Out
. - Speech to Text for IBM Cloud Pak for Data no da soporte a señales Watson. No puede utilizar la cabecera de solicitud
X-Watson-Authorization-Token
para autenticarse con el servicio.