Alta disponibilidad y recuperación tras desastre

Las instancias de servicio de IBM® watsonx.data se despliegan en la región multizona (MZR) de IBM Cloud y MZR de AWS. La disponibilidad de los componentes watsonx.data es Active-Active y Active-Only.

Activo-Activo

Los componentes de varios arrendatarios dan soporte a varios clientes y se configuran con varias réplicas en las zonas de disponibilidad (AZ) para garantizar la disponibilidad. Esta categoría consta de la mayoría de los componentes watsonx.data. MDS es Activo-Activo en el plan Enterprise.

Sólo activo

Los componentes de un solo arrendatario de esta categoría están dedicados a un único cliente. Esta categoría está formada por el motor Presto y el almacén de metadatos. Estos componentes se reinician en una nueva zona durante la anomalía. El MDS es sólo activo en el plan Lite.

En las regiones multizona (MZR), Presto y MDS se distribuyen por distintas zonas.

Cuando una zona de disponibilidad única falla en un MZR, o se produce un error de hardware en cualquier región, las cargas de trabajo fallan automáticamente y se reinician en otras zonas dentro de esa región. Cada instancia de watsonx.data viene con un grupo de metadatos entre regiones predeterminado y un grupo de prueba opcional (10 GB). Ambos buckets están habilitados con IBM Cloud® Object Storage Versioning. La copia de seguridad de los datos se realiza habilitando la replicación en una cuenta IBM Cloud Object Storage independiente. Sin embargo, para cualquier bucket externo que el cliente introduzca en la instancia watsonx.data, el cliente es responsable de esas copias de seguridad.

En un desastre regional, recibe un correo electrónico que incluye todos los pasos que necesita seguir. Consulte las responsabilidades de watsonx.data. Los componentes de un solo arrendatario operan en un modelo 'Sólo activo', lo que garantiza un reinicio inmediato en los nuevos nodos que proporcionan el mismo servicio si se produce una anomalía.

Los componentes de un solo arrendatario se distribuyen estratégicamente en 3 AZs para mejorar la fiabilidad. Cuando un AZ falla, se garantiza la capacidad suficiente para iniciar los servicios necesarios en las AZ disponibles. Esto minimiza cualquier impacto causado por una parada de AZ.

Responsabilidades

Responsabilidades
Tarea	Responsabilidades de IBM	Sus responsabilidades
Copias de seguridad	watsonx.data es responsable de las copias de seguridad diarias automáticas de todos los recursos proporcionados por watsonx.data.	El cliente es responsable de: 1) Crear una nueva instancia de IBM watsonx.data para restaurar las copias de seguridad y validar que las copias de seguridad de IBM se hayan restaurado correctamente. 2) Restaure las copias de seguridad de los componentes externos que han traído a watsonx.data.
Restaurar	watsonx.data maneja la restauración de copias de seguridad para los recursos proporcionados.	El Cliente es responsable de: 1) Crear una nueva instancia de watsonx.data para restaurar las copias de seguridad y validar que las copias de seguridad de IBM se hayan restaurado correctamente. 2) Restaure las copias de seguridad de los componentes externos que han traído a watsonx.data.

Alta disponibilidad a nivel de aplicación

Las aplicaciones que se comunican a través de redes y servicios en la nube están sujetas a errores de conexión transitorios. Diseñe las aplicaciones para reintentar las conexiones cuando una pérdida temporal en la conectividad con el despliegue o con IBM Cloud, provoque errores. Dado que watsonx.data es un servicio gestionado, las actualizaciones y el mantenimiento periódicos forman parte de las operaciones normales. Dicho mantenimiento ocasionalmente provoca una interrupción temporal del servicio.

Las aplicaciones deben estar diseñadas para manejar interrupciones temporales en el servicio, implementar el manejo de errores para los mandatos fallidos e implementar la lógica de reintento para recuperarse de una interrupción temporal.

A continuación se muestran algunos de los códigos de error que se pueden esperar durante las interrupciones temporales del servicio:

Si se reinicia un nodo coordinador Presto, ya sea por motivos de mantenimiento o debido a una anomalía del sistema, es necesario que las aplicaciones restablecen su conexión con el motor Presto.

No se esperan varios minutos de indisponibilidad o interrupciones de la conexión. Abre un ticket de soporte con detalles si tienes periodos de tiempo superiores a un minuto sin conectividad para que se investiguen las interrupciones.

Estrategia de recuperación tras desastre

IBM® watsonx.data proporciona mecanismos para proteger sus datos y restaurar las funciones del servicio. Los planes de continuidad del negocio están en vigor para alcanzar el objetivo de punto de recuperación (RPO) y el objetivo de tiempo de recuperación (RTO) del servicio. La siguiente tabla muestra los objetivos para watsonx.data.

Estrategia de recuperación tras desastre
Objetivo de recuperación tras desastre	Valor objetivo
RPO	< = 24 horas
RTO	< 24 horas

El intervalo de copia de seguridad se reduce para el servicio Milvus en SaaS para mejorar el RPO de restauración de 24 horas a 2 horas.

Ubicaciones

Regiones AWS

Oregón (us-west-2)
N. Virginia (us-east-1)
Frankfurt (eu-central-1)
Tokyo (jp-tok)

Regiones de IBM

Dallas (us-south)
Washington (us-east)
Frankfurt (eu-de)
Londres (eu-gb)
Tokyo (jp-tok)
Sídney (au-syd)