Comprender la alta disponibilidad y la recuperación ante desastres para DNS Services

La alta disponibilidadCapacidad de un servicio o carga de trabajo para soportar fallos y seguir proporcionando capacidad de procesamiento de acuerdo con algún nivel de servicio predefinido. En el caso de los servicios, la disponibilidad se define en el Acuerdo de Nivel de Servicio. La disponibilidad incluye tanto los eventos planificados como los no planificados, como el mantenimiento, los fallos y las catástrofes. (HA) es la capacidad de un servicio de permanecer operativo y accesible ante fallos inesperados. El objetivo principal de la alta disponibilidad es eliminar posibles puntos de anomalía en una infraestructura de TI. La recuperación de desastresCapacidad de un servicio o carga de trabajo para recuperarse de incidentes graves poco frecuentes y fallos a gran escala, como la interrupción del servicio. Esto incluye un desastre físico que afecte a toda una región, la corrupción de una base de datos o la pérdida de un servicio que contribuya a una carga de trabajo. El impacto supera la capacidad del diseño de alta disponibilidad para gestionarlo. es el proceso de recuperación de la instancia de servicio a un estado de funcionamiento. Incluye procedimientos para copiar y almacenar los datos esenciales de un sistema instalado en una ubicación segura, y para recuperar esos datos para restablecer el funcionamiento normal.

DNS Services está diseñado para cumplir los Objetivos de Nivel de Servicio(OGS ) con el plan estándar. DNS Services es un servicio global de alta disponibilidad, diseñado con dominios de fallo separados para mejorar la resistencia. El plano de control es resistente tanto a fallos zonales como regionales, y su fallo no afecta al plano de datos. El plano de datos es resistente al menos a fallos zonales, y su fallo no afecta al plano de control.

Para obtener más información sobre las regiones de implantación y las ubicaciones de los centros de datos de DNS Services, consulte Disponibilidad de servicios e infraestructuras por ubicación.

Arquitectura de alta disponibilidad

Plano de control

IBM Cloud® DNS Services es un servicio disponible globalmente (GA). Sus puntos finales de API pública para la configuración de DNS están disponibles a través de un equilibrador de carga global desplegado en dos regiones multizonaUna región repartida en ubicaciones físicas de varias zonas para aumentar la tolerancia a fallos. (MZR) de IBM Cloud, lo que garantiza una alta disponibilidad. Estas regiones son Dallas y Washington, DC. Si una región sufre una interrupción, el equilibrador de carga global dirige automáticamente el tráfico de la API a la otra región. Por ejemplo, si la región de Dallas no está disponible, las solicitudes se redirigen a otras regiones geográficas disponibles, en este caso, Washington, DC.

En caso de fallo global, el plano de control se restaura centrándose en reducir la pérdida de datos para los recursos. Por lo tanto, los clientes también deben planificar la recuperación en caso de catástrofe.

Un plano de control gestiona las solicitudes de configuración DNS iniciadas por el usuario, mientras que un plano de datos gestiona las solicitudes de resolución de nombres de la Nube Virtual Privada (VPC).

Plano de datos Servidores DNS

Los servidores DNS están distribuidos globalmente en varios MZR y utilizan direcciones IP anycast para optimizar la latencia y garantizar una alta disponibilidad. Si una zona de disponibilidad o una región entera sufre una interrupción, las consultas DNS se dirigen automáticamente a la zona de disponibilidad o región más cercana. Los datos DNS se replican a través de las siguientes regiones para apoyar tanto la optimización de la latencia como la alta disponibilidad:

Dallas (us-south)
Washington, D.C. (us-east)
Londres (eu-gb)
Madrid (eu-es)
Fráncfort (eu-de)
Osaka (jp-osa)
Tokio (jp-tok)
Toronto (ca-tor)
Sídney (au-syd)
Sao Paulo (br-sao)

Resolvedores personalizados del plano de datos

Un resolver personalizado es un objeto regional compuesto por objetos zonales (ubicaciones de resolver personalizadas) configurados en subredes a través de zonas. Una práctica recomendada es desplegar los programas de resolución personalizados en más de una subred para garantizar la alta disponibilidad. Se recomienda que realice el despliegue en las tres zonas de disponibilidad.

Cuando se produce un fallo regional, este aspecto del plano de datos se restablece al estado de los recursos tal y como se representan y persisten en el plano de control.

Funciones de alta disponibilidad

DNS Services admite las siguientes funciones de alta disponibilidad:

Funciones HA para DNS Services
Característica	Descripción	Consideración
Ubicaciones de resolución personalizadas	Gestione dónde se despliega su resolver personalizado.	Sólo añade resistencia a los fallos zonales.

Puede lograr una alta disponibilidad en varios niveles dentro de su infraestructura de TI y a través de diferentes componentes de su clúster DNS. El nivel de disponibilidad adecuado para usted depende de varios factores, como los requisitos de su empresa, los acuerdos de nivel de servicio (SLA) que tenga con sus clientes y los recursos que esté dispuesto a gastar.

El nivel de disponibilidad que configure para su clúster influye en su cobertura según los términos del SLA de alta disponibilidad de IBM Cloud.

Los objetivos de nivel de servicio (SLO) definen los puntos de diseño que deben cumplir los servicios de IBM Cloud. IBM Cloud® DNS Services está diseñado para cumplir el siguiente objetivo de disponibilidad.

SLO para DNS Services
Objetivo de disponibilidad	Valor objetivo
% de disponibilidad	99.999%

El SLO no es una garantía y IBM no otorgará créditos por el incumplimiento de un objetivo. Consulte los acuerdos de nivel de servicio (SLA )para conocer los compromisos y los créditos que se emiten en caso de incumplimiento de alguno de los SLA comprometidos. Para obtener un resumen de todos los SLO, consulte los objetivos de nivel de servicio IBM Cloud.

Para obtener más información sobre la disponibilidad de servicios en regiones y centros de datos, consulte Disponibilidad de servicio e infraestructura por ubicación.

Consulte Cómo garantiza IBM Cloud la alta disponibilidad y la recuperación en caso de catástrofe para obtener más información sobre las normas de alta disponibilidad y recuperación en caso de catástrofe en IBM Cloud.

Arquitectura de recuperación en caso de catástrofe

Mantener un registro externo de su configuración DNS es importante para recuperar DNS Services en caso de desastre. Tanto el proceso de copia de seguridad como el de restauración pueden automatizarse mediante secuencias de comandos y los procesos de exportación e importación de la tabla Funciones de recuperación tras desastres. DNS Services es compatible con Terraform y puede utilizarse para definir cargas de trabajo con ubicaciones y rendimiento parametrizados. Los clientes pueden utilizar IBM Cloud Schematics para crear y gestionar scripts Terraform, que a su vez pueden utilizarse para recuperar recursos en una ubicación disponible durante un desastre.

Funciones de recuperación en caso de catástrofe

IBM Cloud® DNS Services admite las siguientes funciones de recuperación ante desastres:

Característica	Descripción	Consideración
Exportar registros de recursos DNS	Exporte los registros DNS de una zona a un archivo de texto a través del panel de control.	Exporta sólo los registros DNS de una zona cada vez. No exporta el equilibrador de carga ni otros datos que no sean registros DNS.
Importar registros de recursos DNS	Importe registros DNS de un archivo de texto a una zona a través del panel de control.	Es necesario volver a crear la zona antes de importar los registros DNS.
Fuente externa de la verdad	Zonas DNS, redes permitidas, registros de recursos DNS, resolvedores personalizados, reglas de reenvío de resolvedores personalizadas y mucho más capturado en archivos de configuración gestionados por el cliente como scripts Terraform, scripts shell o programas.	El cliente debe crear el script o programa, y persistir la configuración donde se puede utilizar durante el desastre.
Copia de seguridad y restauración	Copia de seguridad de una instancia de servicio mediante un script escrito por el cliente.	El cliente debe crear el script y persistir la copia de seguridad donde pueda ser utilizada durante la recuperación.

Planificación de la RD

Como cliente, usted es responsable de recuperar los datos de configuración de su Servidor DNS en caso de desastre. Debe asegurarse de elaborar un plan de recuperación en caso de catástrofe y tener en cuenta las siguientes situaciones de fallo y soluciones:

Escenarios de RD para DNS Services
Anomalía	Resolución
Fallo zonal	Mitigado para resolvedores personalizados mediante el despliegue en múltiples ubicaciones Mitigado para servidores DNS mediante consultas respondidas por la zona de disponibilidad disponible más cercana.
Fracaso regional	Interrupción de los resolvers personalizados hasta que se restablezca una zona de disponibilidad. Mitigado para servidores DNS mediante consultas respondidas por la región disponible más cercana.
Corrupción de datos	Restaurar configuraciones de servicio desde una fuente externa de verdad.

Sus responsabilidades en HA y DR

Es su responsabilidad probar continuamente su plan de HA y DR.

Pueden producirse interrupciones en la conectividad de la red y breves periodos de indisponibilidad de un servicio. Es su responsabilidad asegurarse de que el código fuente de la aplicación incluye la lógica de reintento de disponibilidad del cliente para mantener la alta disponibilidad de la aplicación.

Utilice las siguientes listas de comprobación asociadas a cada característica para ayudarle a crear y poner en práctica su plan.

Programa de resolución personalizado
- Asegurarse de que los datos de registros de recursos y de zonas DNS sean correctos y precisos.
- Realice copias de seguridad periódicas de sus zonas DNS y registros de recursos.
- Para lograr una alta disponibilidad, configure resolvers personalizados con un mínimo de dos ubicaciones de resolvers. La mejor práctica es establecer una ubicación en cada zona de disponibilidad.
- Para garantizar una alta disponibilidad correcta de las zonas secundarias con varias ubicaciones de resolver personalizadas, configure su resolver local para permitir transferencias de zona a todas las ubicaciones de resolver personalizadas que se hayan creado.

Para obtener más información sobre la propiedad de responsabilidades entre usted y IBM Cloud para IBM Cloud DNS Services, consulte Comprender sus responsabilidades al utilizar IBM Cloud DNS Services.

Gestión de cambios

La gestión de cambios incluye tareas como la modificación y eliminación de configuraciones.

Conceda a los usuarios y procesos las funciones y acciones de Identity and Access Management (IAM) con los menores privilegios necesarios para su trabajo. Para más información, consulta ¿Cómo puedo evitar el borrado accidental de servicios?

Las mejores prácticas para gestionar el cambio también incluyen:

Planifique y documente los cambios manteniendo un registro de cambios para cualquier modificación que se realice en la configuración de DNS Services.
Cree una copia de seguridad de las configuraciones críticas antes de realizar cambios importantes.
Programe los cambios de alto impacto durante las ventanas de bajo tráfico y notifíquelo a los equipos afectados.
Supervise la salud y las métricas de su DNS Services para asegurarse de que todo funciona según lo esperado.

Cómo ayuda IBM a garantizar la recuperación en caso de catástrofe

IBM® adopta medidas específicas de recuperación para IBM Cloud® DNS Services, en caso de catástrofe.

Cómo se recupera IBM de los fracasos regionales

IBM Cloud dispone de planes de continuidad de la actividadCapacidad de una empresa para soportar paradas y para operar con servicios críticos de forma normal y sin interrupciones de acuerdo con los acuerdos de nivel de servicio predefinidos. que permiten recuperar los servicios en cuestión de horas en caso de catástrofe. El cliente es el responsable de la copia de seguridad de datos y de la recuperación asociada de su contenido.

DNS Services proporcionan mecanismos para proteger sus datos y restablecer las funciones del servicio. Existen planes de continuidad de la actividad para alcanzar el objetivo de punto de recuperaciónEn la planificación de la recuperación de desastres, el momento en el que se restauran los datos medido en tiempo (segundos, minutos, horas) empezando en la instancia recuperada y terminando en el punto del desastre. (RPO) y el objetivo de tiempo de recuperaciónEn la planificación de la recuperación en caso de catástrofe, el tiempo que tarda en restablecerse un proceso empresarial tras una catástrofe. (RTO) previstos para el servicio. El siguiente cuadro presenta los objetivos de DNS Services.

RPO y RTO para DNS Services
Elemento de servicio	RPO	RTO
Panel de control	0	< 60 segundos
Plano de datos	0	< 60 segundos
Programa de resolución personalizado	0	< 60 segundos
Recuperación de base de datos	24 horas	8 horas

Si IBM no puede restaurar la instancia de servicio, deberá restaurar el servicio tal y como se describe en la arquitectura de recuperación de desastres.

Para obtener más información sobre la disponibilidad de servicios en regiones y centros de datos, consulte Disponibilidad de servicio e infraestructura por ubicación.

Cómo IBM mantiene los servicios

Todas las actualizaciones siguen las mejores prácticas de servicio de IBM, incluidos los planes de recuperación y los procesos de reversión. El mantenimiento regular puede causar breves interrupciones, mitigadas por la lógica de reintento de disponibilidad del cliente. Los cambios se despliegan secuencialmente, región por región, y zona por zona dentro de una región. IBM revierte las actualizaciones a la primera señal de un defecto.

IBM avisa con antelación de todas las actividades de mantenimiento previstas. Si se prevé que un cambio afectará a sus cargas de trabajo, IBM se lo comunicará mediante notificaciones oficiales. Para mantenerse al día sobre el mantenimiento, los anuncios de servicio y otras actualizaciones, consulte la página de notificaciones y estado de la supervisión.