Información sobre Ajustar por ejemplo

La característica Ajustar por ejemplo es la funcionalidad beta que sólo se admite para voces y modelos personalizados en inglés de EE.UU.

La característica Ajustar por ejemplo le permite controlar exactamente la forma en que el servicio dice el texto especificado. La característica permite dictar la entonación, la acentuación, el tempo, la cadencia, el ritmo y las pausas del texto sintetizado. Estos aspectos del discurso se conocen colectivamente como prosodia.

Puede crear una solicitud personalizada proporcionando un registro de ejemplo que diga el texto tal como desee escucharlo y el servicio duplica las cualidades del discurso grabado con sus voces. La solicitud hablada puede enfatizar diferentes sílabas o palabras, introducir pausas y, en general, hacer que el sonido de audio sintetizado sea más natural y apropiado para el contexto en el que se utiliza la solicitud.

La característica proporciona un mecanismo más simple que el SSML estándar para modificar cómo se sintetiza el habla. Por ejemplo, utilizar atributos del elemento SSML <prosody> puede resultar difícil. Ajustar por ejemplo elimina la necesidad de SSML y le permite grabar el texto tal como desea que el servicio lo diga, en lugar de pedirle que emule la prosodia prevista con elementos y atributos SSML.

Puede mejorar aún más la calidad de una solicitud creando un modelo de hablante opcional que contenga información sobre la voz de un hablante. Puede crear un modelo de hablante proporcionando una muestra de audio de la voz de un usuario. El servicio extrae información del audio de la muestra para entrenarse en esa voz, lo que puede ayudar a producir solicitudes de mayor calidad para ese hablante.

Para obtener una visión general de la función Tune by Example, incluida una demostración con guiones de ejemplo, consulte el blog Tune by Example: Cómo ajustar Watson Text to Speech para mejorar la entonación.

Estado y soporte

La siguiente información de estado y soporte se aplica a Ajustar por ejemplo:

Ajustar por ejemplo es una funcionalidad beta que solo está disponible para inglés de EE.UU. Solo puede añadir solicitudes a modelos personalizados cuyo idioma sea en-US. Solo puede utilizar una solicitud personalizada con voces en inglés de EE.UU.
Los modelos personalizados, las solicitudes personalizadas y los modelos de hablante son propiedad de la instancia de servicio con cuyas credenciales se hayan creado. El registro de solicitudes y la privacidad de datos están soportados para todos los componentes de personalización. Para obtener más información sobre estos temas, consulte Notas de uso para la personalización.
IBM Cloud ' Debe disponer del plan de precios Estándar o Premium para utilizar Tune by Example. La característica forma parte de la personalización, que está restringida a estos planes. Para obtener más información, consulte el servicio Text to Speech en el IBM Cloud® Catálogo.

Cómo funciona Ajustar por ejemplo

Durante la fase de pruebas de una aplicación, es posible que encuentre que el servicio no sintetiza adecuadamente algunos aspectos de su texto. En algunos casos, por ejemplo, es posible que desee cambiar aspectos específicos del audio, tales como qué palabras se enfatizan y la ubicación o la duración de las pausas. En otros casos, es posible que desee cambiar aspectos más sutiles de la síntesis. Por ejemplo, usted podría pensar que el audio sintetizado suena robótico, poco natural, o que el tono no es satisfactorio. Estos son los tipos de problemas que Ajustar por ejemplo puede abordar.

Para utilizar la función Ajustar por ejemplo, grabe a un usuario que lea el texto tal como desea que suene cuando lo diga una de las voces del servicio. A continuación, añada el texto y el audio a un modelo personalizado en forma de solicitud personalizada. El servicio aprende la prosodia preferida del texto a partir de la muestra de audio. Cuando incluye la solicitud en una solicitud de síntesis de voz utilizando la extensión SSML <ibm:prompt id="{prompt_id}"/>, la voz que dice el texto de la solicitud emula la prosodia de la solicitud.

Puede crear un modelo de hablante para un usuario que registra solicitudes habladas. Esto es opcional, pero se recomienda hacerlo. A continuación, asocie el modelo de hablante con las solicitudes que diga ese usuario. La adición de un modelo de hablante puede suponer una diferencia apreciable en la calidad de una solicitud sintetizada. Por ejemplo, el servicio puede producir solicitudes cortas con más confianza si conoce la entonación normal del hablante. Dado que la falta de un altavoz definido puede comprometer la calidad de una solicitud, se recomienda asociar un modelo de hablante a cada solicitud personalizada.

Dado que las solicitudes personalizadas se añaden a modelos personalizados, debe especificar un modelo personalizado de solicitud en una solicitud de síntesis de voz para utilizar esa solicitud. Los modelos de hablante, no obstante, son independientes de los modelos personalizados. La relación de los modelos de hablante con los modelos personalizados y las solicitudes personalizadas es de uno a muchos. El mismo modelo de hablante se puede asociar a varias solicitudes que están definidas en distintos modelos personalizados. Además, en una solicitud de síntesis no se especifica un modelo de hablante.

Ajustar por ejemplo y pronunciación de palabras

La pronunciación predeterminada del servicio y las reglas de tokenización pueden hacer que una palabra inusual que aparece en una solicitud se pronuncie de forma insatisfactoria. Sin embargo, Ajustar por ejemplo no está pensado para cambiar la pronunciación de una palabra. Por ejemplo, el servicio pronuncia la palabra "catastrophic" como uno espera escucharla. Puede utilizar Ajustar por ejemplo para cambiar las sílabas de la palabra (por ejemplo, "cataSTROPHic") o el tempo de la palabra (por ejemplo, "cat-a-strophic"). Pero no puede utilizar Ajustar por ejemplo para cambiar la pronunciación predeterminada de la palabra.

Para cambiar cómo se pronuncia una palabra, se utiliza la interfaz de personalización del servicio para definir una pronunciación alternativa para la palabra. Puede añadir una palabra personalizada con la pronunciación alterada al mismo modelo personalizado que la solicitud. A continuación, el servicio aplica la pronunciación de la palabra personalizada cuando aparece en una solicitud. Para obtener más información, consulte Comprender la personalización.

Si añade o modifica una palabra personalizada que forma parte de una solicitud existente, el servicio continúa utilizando la pronunciación de la palabra que estaba en vigor cuando se creó la solicitud. Esto ocurre porque el servicio crea una solicitud en un punto en el tiempo y emplea las reglas de pronunciación que están en vigor en ese momento. Hay que volver a crear una solicitud para utilizar una palabra personalizada nueva o actualizada.

Al volver a crear una solicitud, el servicio sustituye la solicitud existente. La nueva solicitud refleja cualquier cambio en el texto o en el audio de la solicitud junto con las pronunciaciones de palabras personalizadas definidas desde la primera vez que se creó la solicitud. Siempre puede pasar el mismo texto y audio que ha utilizado para crear la solicitud original si vuelve a grabar la solicitud después de añadir una palabra personalizada.

Solicitudes personalizadas

Una solicitud personalizada se define mediante un texto y un audio que dice ese texto con la prosodia que desea que utilicen las voces del servicio. El servicio extrae y analiza la prosodia del audio de la solicitud. Después, aplica esa información prosódica cuando dice el texto de la solicitud con una de sus voces.

Es importante entender que cuando se utiliza una solicitud durante la síntesis de voz, el servicio no utiliza el audio de la solicitud en sí. En su lugar, utiliza la voz que ha especificado en la solicitud de síntesis. Esa voz adopta la prosodia para el audio hablado de la solicitud.

Cuando se añade una solicitud a un modelo personalizado, se define la solicitud proporcionando el texto que se va a decir, el audio grabado para ese texto, un identificador exclusivo especificado por el usuario para la solicitud y un modelo de hablante opcional. El servicio genera y almacena datos prosódicos para la solicitud y utiliza los datos para producir audio sintetizado a demanda. Debe utilizar las credenciales de la instancia del servicio que posee un modelo personalizado para añadir una solicitud.

Asigne siempre un nombre significativo como valor del ID de solicitud. Por ejemplo, utilice un nombre como goodbye para indicar a una solicitud que diga un mensaje de despedida estándar. Los ID de solicitud deben ser exclusivos dentro de un modelo personalizado determinado, por lo que no puede definir dos solicitudes con el mismo ID para el mismo modelo. Si proporciona el ID de una solicitud existente, la solicitud cargada anteriormente se sustituye por la nueva información. El servicio vuelve a procesar la solicitud existente utilizando el nuevo texto y el nuevo audio, y actualiza los datos prosódicos asociados a la solicitud.

Cuando procesa una solicitud para añadir una solicitud, el servicio intenta alinear el texto y el audio que se proporcionan para la solicitud. El texto que se pasa con una solicitud debe coincidir con el audio hablado tanto como sea posible. Lo óptimo es que el texto y el audio coincidan exactamente. El servicio hace todo lo posible para alinear el texto especificado con el audio, y a menudo puede compensar los desajustes entre los dos. Pero si el servicio no puede alinear eficazmente el texto y el audio porque la magnitud de las diferencias entre los dos es demasiado grande, el procesamiento de la solicitud falla.

Solo se admite utilizar solicitudes en modelos y voces personalizados en inglés de EE.UU. La calidad de una solicitud es indefinida si el idioma de una solicitud no coincide con el idioma de su modelo personalizado. Esto es así para cualquier texto que se especifique para una solicitud de síntesis de voz. El servicio intenta para representar lo mejor posible el texto especificado para la solicitud. No valida que el idioma del texto coincida con el idioma del modelo.

Modelos de hablante

Un modelo de hablante se define mediante una muestra de audio de la voz de un usuario a partir de la cual el servicio extrae información para entrenarse sobre las características de esa voz. Cuando el modelo de hablante está asociado a una solicitud personalizada que es hablada por el mismo usuario, el servicio aprovecha su comprensión de la voz del hablante para identificar cómo la prosodia de la solicitud se compara con los patrones de habla normal del hablante. El modelo de hablante sirve como línea base para distinguir las características prosódicas en el audio de la solicitud.

Al crear un modelo de hablante, se proporciona un audio de inscripción y un nombre para el modelo que debe ser exclusivo dentro del contexto de la instancia de servicio propietaria:

El audio de inscripción debe incluir el habla dicha por el usuario asociado al modelo. El servicio extrae información sobre la voz del hablante a partir de la muestra de audio que usted proporciona.
El nombre supone un descriptor legible por el usuario para el modelo. El servicio devuelve un ID de hablante, que es un identificador exclusivo global (GUID) (por ejemplo, 823068b2-ed4e-11ea-b6e0-7b6456aa95cc) que se utiliza para identificar el hablante en las solicitudes posteriores al servicio.

El servicio utiliza la información que extrae del audio para entrenarse en el tono, la cadencia y la entonación del hablante. Esta información puede suponer una diferencia significativa en la calidad de las solicitudes que asociadas al modelo, especialmente las solicitudes cortas con relativamente poco audio.

Puede crear un modelo de hablante para una instancia determinada del servicio. Un único modelo de hablante se puede asociar a varias solicitudes definidas para varios modelos personalizados dentro de esa instancia de servicio. El género del hablante que crea un modelo de hablante no tiene que coincidir con el género de una voz que se utiliza con solicitudes asociadas a ese modelo de hablante. Por ejemplo, un modelo de hablante creado por un hablante masculino puede asociarse a solicitudes habladas por voces femeninas.