Copia de seguridad y restauración de datos

Utilice los siguientes procedimientos para realizar copias de seguridad y restaurar datos en IBM Watson® Discovery.

IBM Cloud Pak for Data IBM Software Hub

Esta información sólo se aplica a los despliegues instalados.

Utilice el mismo conjunto de scripts de copia de seguridad y restauración para realizar una copia de seguridad y restaurar datos en cualquiera de las vías de acceso de actualización soportadas. El script de copia de seguridad almacena el número de versión del servicio con datos para realizar una copia de seguridad del despliegue existente. La secuencia de comandos de restauración detecta la versión del servicio que está instalada en la nueva implementación y, a continuación, sigue los pasos adecuados para restaurar los datos a la versión detectada.

En la tabla siguiente se listan las vías de acceso de actualización soportadas por los scripts.

Vías de acceso de actualización soportadas
Versión en uso	Versión a la que puede actualizar
5.1.x	Versiones posteriores de 5.1.x, 5.2.0
5.0.x	Versiones posteriores de 5.0.x, 5.1.x, 5.2.0
4.8.8, 4.8.9	5.1.1 o versiones posteriores
4.8.7	Versiones posteriores de 4.8.x, 5.1.x, 5.2.0
4.8.6	Versiones posteriores de 4.8.x, 5.0.3, 5.1.x, 5.2.0
4.8.x	Versiones posteriores de 4.8.x, 5.0.x, 5.1.x, 5.2.0
4.7.x	4.8.x, 5.0.x, 5.1.x
4.6.x	4.8.x, 5.0.x, 5.1.x
4.5.x	4.8.x, 5.0.x, 5.1.x
4.0.x	4.8.x excepto 4.8.0

Si está actualizando a 5.2.x, en los siguientes temas se describe una forma más sencilla de completar la actualización:

Si va a actualizar a 5.1.x, en los siguientes temas se describe una forma más sencilla de completar la actualización:

Si está actualizando a 5.0.x, una forma más sencilla de completar la actualización se describe en los temas siguientes:

Si utiliza las API de IBM Cloud Pak for Data Red Hat OpenShift para el programa de utilidad de copia de seguridad y restauración de Data Protection (OADP) para realizar una copia de seguridad fuera de línea y restaurar un clúster completo, son necesarios algunos pasos adicionales. Para obtener más información, consulte Utilización de OADP para realizar una copia de seguridad de un clúster donde está instalado Discovery. Para obtener información sobre la copia de seguridad y restauración en línea de OADP, consulte Copia de seguridad y restauración en línea deCloud Pak for Data.

Puede realizar una actualización in situ desde una versión 4.8.x a una versión 4.8.y posterior. Para obtener más información, consulte Actualización de Watson Discovery de la versión 4.8.x a una 4.8 renovaciónposterior.

Puede realizar una actualización in situ desde una versión 4.7.x a una versión 4.7.y posterior. Para obtener más información, consulte Actualización de Watson Discovery de la versión 4.7.x a una 4.7 renovaciónposterior.

Puede realizar una actualización in situ desde una versión 4.6.x a una versión 4.6.y posterior. Para obtener más información, consulte Actualización de Watson Discovery de la versión 4.6.x a una 4.6 renovaciónposterior.

Puede realizar una actualización in situ desde una versión 4.5.x a una versión 4.5.y posterior. Para obtener más información, consulte Actualización de Watson Discovery a la última actualización de la versión 4.5.

Puede realizar una actualización in situ desde una versión 4.0.x a una versión 4.0.y posterior. Para obtener más información, consulte Actualización de Watson Discovery a una renovación 4.0 más reciente.

Visión general del proceso

En un nivel alto, el proceso incluye los pasos siguientes:

Realice una copia de seguridad de los datos de Discovery utilizando el script de copia de seguridad.
Instale la última versión de IBM Cloud Pak for Data.
Instale la versión más reciente del servicio Discovery en el clúster.
Restaure los datos de Discovery de copia de seguridad utilizando el script de restauración.

Limitaciones de copia de seguridad y restauración

No se pueden migrar los siguientes datos:

Modelos de sugerencias de diccionario. Estos modelos se crean al crear un diccionario. El diccionario se incluye en la copia de seguridad, pero el modelo de sugerencias de términos no. Vuelva a procesar las colecciones migradas para habilitar las sugerencias de términos de diccionario.
No puede realizar una copia de seguridad y restaurar curaciones o migrarlas porque las curaciones son una característica beta.

Puedes hacer copias de seguridad y restaurar algunos datos utilizando los scripts de copia de seguridad y restauración, pero debes hacer copias de seguridad y restaurar otros datos manualmente. Se debe realizar una copia de seguridad manual de los datos siguientes:

Los documentos y carpetas del sistema de archivos local que puede rastrear utilizando el origen de datos del sistema de archivos local.

Se realizan las siguientes actualizaciones cuando se restauran colecciones:

Cualquier colección que contenga documentos creados mediante la carga de datos se vuelve a rastrear y a indexar automáticamente cuando se restaura. A estos documentos se les asignan nuevos números de identificación en las colecciones restauradas.
Las colecciones que se han utilizado en proyectos de Content Mining se vuelven a rastrear automáticamente y se vuelven a indexar cuando se restauran. Sólo a los documentos que se añaden cargando datos se les asignan nuevos números de ID de documento en las recopilaciones restauradas.

Métodos de copia de seguridad y restauración

Puede realizar una copia de seguridad y restaurar la instancia de Discovery manualmente o utilizando scripts.

Utilización de los scripts de copia de seguridad
Uso de los scripts de restauración
Copia de seguridad de datos manualmente
Restauración de datos manualmente

Debe tener acceso administrativo a la instancia de Discovery en el clúster de Discovery (donde se almacena la copia de seguridad de los datos) y acceso administrativo a la nueva instancia (donde se restaurarán los datos).

Los scripts de copia de seguridad y restauración completan muchas operaciones y pueden tardar bastante tiempo en ejecutarse. Para evitar problemas de tiempo de espera, ejecute una herramienta que impida tiempos de espera excedidos, como por ejemplo nohup.

Utilización de los scripts de copia de seguridad

Dado que los cambios en los datos almacenados en IBM Watson® Discovery durante una copia de seguridad pueden hacer que ésta se corrompa y quede inutilizable, no se permiten solicitudes en vuelo durante el periodo de copia de seguridad.

Una solicitud en curso es cualquier acción IBM Watson® Discovery que procese datos, incluidas las acciones siguientes:

Rastreo de origen (planificado o no planificado)
Ingesta de documentos
Entrenamiento de un modelo de consulta entrenado

La cantidad de almacenamiento que está disponible en el nodo donde ejecuta el script de copia de seguridad debe ser 3 veces mayor que el archivo de copia de seguridad más grande del almacén de datos del que tiene previsto realizar una copia de seguridad. Si el almacén de datos es grande, considere la posibilidad de utilizar una reclamación de volumen persistente en lugar de confiar en el almacenamiento efímero del nodo. Para obtener más información, consulte Configuración de trabajos para utilizar PVC.

Complete los siguientes pasos para realizar una copia de seguridad de los datos de IBM Watson® Discovery utilizando los scripts de copia de seguridad:

Escriba el siguiente mandato para establecer el espacio de nombres actual donde se despliega la instancia de Discovery:
```
oc project <namespace>
```
Obtenga el script de copia de seguridad del repositorioGitHub.

Necesita todos los archivos del repositorio para completar una copia de seguridad y restauración. Siga las instrucciones de la ayuda de GitHub para clonar o descargar un archivo comprimido del repositorio.
Convierta cada script en un archivo ejecutable ejecutando el mandato siguiente:
```
chmod +x <name-of-script>
```
Sustituya <name-of-script> por el nombre del script.
Ejecute el script all-backup-restore.sh.
```
./all-backup-restore.sh backup [ -f backup_file_name ] [--pvc]
```
El parámetro -f backup_file_name es opcional. El nombre watson_discovery_<timestamp>.backup se utiliza si no especifica un nombre.

El parámetro --pvc es opcional. Para obtener más información sobre cuándo utilizarlo, consulte Configuración de trabajos para utilizar PVC. De forma predeterminada, los scripts de copia de seguridad y restauración crean un directorio tmp en el directorio actual que el script utiliza para extraer o comprimir archivos de copia de seguridad.

Si se encuentra con problemas con la copia de seguridad, vuelva a ejecutar el mandato de copia de seguridad e incluya el parámetro --use-job. Este parámetro indica al script de copia de seguridad que utilice un trabajo Kubernetes para realizar una copia de seguridad de ElasticSearch y MinIO además de Postgres, que utiliza un trabajo Kubernetes de forma predeterminada. Si el tamaño de los datos en ElasticSearch y MinIO es grande y el almacenamiento efímero es insuficiente, incluya la opción --pvc. Cuando lo hace, el script utiliza la reclamación de volumen persistente que se especifica con la opción --pvc en lugar del almacenamiento efímero emptyDir como directorio de trabajo temporal para el trabajo.

Extracción de archivos del archivo de archivado de copia de seguridad

Los scripts generan un archivo de archivado, incluidos los archivos de copia de seguridad de los servicios que se listan en el paso 1.

Puede extraer archivos del archivo de archivado ejecutando el mandato siguiente:
```
tar xvf <backup_file_name>
```

Configuración de trabajos para utilizar PVC

El proceso de copia de seguridad y restauración utiliza trabajos Kubernetes. Los trabajos utilizan volúmenes efímeros que utilizan almacenamiento efímero. Es un montaje de almacenamiento temporal en el pod que utiliza el almacenamiento local de un nodo. En casos raros, el almacenamiento efímero no es lo suficientemente grande. Opcionalmente, puede indicar al trabajo que monte una reclamación de volumen persistente (PVC) en su pod para utilizarla para almacenar los datos de copia de seguridad. Para ello, especifique la opción --pvc cuando ejecute el script. De lo contrario, los scripts utilizan emptyDir de Kubernetes.

En la mayoría de los casos, no es necesario utilizar un volumen persistente. Si opta por utilizar un volumen persistente, el volumen debe ser 3 veces más grande que el archivo de copia de seguridad más grande del almacén de datos. El tamaño del archivo de copia de seguridad del almacén de datos depende del uso. Después de crear una copia de seguridad, puede extraer archivos del archivo de archivado para comprobar los tamaños de archivo.

Además, debe tener 2 veces más espacio de disco disponible en el sistema local que el tamaño del almacén de datos porque el archivado de los datos se divide y, a continuación, se vuelve a combinar para evitar problemas que de otro modo podrían producirse al copiar archivos grandes del nodo de clúster en el sistema local.

Correlación de clústeres multiarrendatario

Cuando restaura datos de los que se ha realizado una copia de seguridad desde una versión anterior a 4.0.6 a cualquier release posterior y el despliegue de copia de seguridad tenía más de una instancia del servicio suministrada, es necesario un paso adicional. Debe crear un archivo JSON que correlacione los ID de instancia de servicio entre el clúster de copia de seguridad y el clúster donde se están restaurando los datos.

Este paso de correlación no es necesario si los ID de instancia no han cambiado entre los pasos de copia de seguridad y restauración. Por ejemplo, puede omitir este paso si está restaurando datos en el mismo clúster desde el que se realizó la copia de seguridad o si está restaurando datos en un clúster nuevo que no tiene instancias de Discovery.

Para crear una asignación, siga estos pasos:

Extraiga el archivo de plantilla de correlación del archivo de archivado de copia de seguridad.
```
tar xf <backup_file_name> tmp/instance_mapping.json -O > <mapping_file_name>
```
Haga una lista de los nombres e ID de instancia de las instancias de servicio que se suministran al clúster donde se están restaurando los datos.

El ID de instancia forma parte de URL que se especifica en la página de resumen de instancia. En el menú principal del cliente web IBM Cloud Pak for Data, expanda Servicios y, a continuación, haga clic en Instancias. Busque la instancia y, a continuación, púlselo para abrir su página de resumen. Desplácese hasta la sección Información de acceso de la página y busque el ID de instancia en el campo URL campo

Por ejemplo, https://<host_name>/wd/<namespace>-wd/instances/<instance_id>/api.

Repita este paso para anotar el ID de instancia para cada instancia suministrada.

Edite el archivo de correlación.

Añada los ID de instancia para las instancias de servicio de destino que ha listado en el paso anterior. El siguiente fragmento es un ejemplo de archivo de asignación.

{
  "instance_mappings": [
    {
      "display_name": "discovery-1",
      "source_instance_id": "1644822491506334",
      "dest_instance_id": "<new_instance_id>"
    },
    {
      "display_name": "discovery-2",
      "source_instance_id": "1644822552830325",
      "dest_instance_id": "<new_instance_id>"
    }
  ]
}

Cuando ejecute el script de restauración, incluya el parámetro --mapping opcional para aplicar este archivo de correlación cuando se restauren los datos.

Copia de seguridad de datos manualmente

Realice una copia de seguridad manual de los datos de los que no se ha realizado una copia de seguridad utilizando los scripts.

Para realizar manualmente una copia de seguridad de los datos de una instancia de Discovery, realice los siguientes pasos:

Escriba el siguiente mandato para iniciar la sesión en el clúster de Discovery:

oc login https://<OpenShift administrative console URL> \
-u <cluster administrator username> -p <password>

Escriba el siguiente mandato para conmutar al espacio de nombres adecuado:
```
oc project <discovery-install namespace>
```
Especifique oc get pods|grep crawler.

Escriba el mandato siguiente:

oc cp <crawler pod>:/mnt <path-to-backup-directory>

Utilización de los scripts de restauración

Si está restaurando datos de una versión anterior a 4.0.6 y está restaurando un clúster multiarrendatario en un clúster multiarrendatario, debe realizar un paso adicional antes de empezar. Para obtener más información, consulte Correlación de clústeres de varios arrendatarios.

Complete los siguientes pasos para restaurar los datos en IBM Watson® Discovery utilizando los scripts de restauración:

Escriba el siguiente mandato para establecer el espacio de nombres actual donde se despliega la instancia de Discovery:
```
oc project <namespace>
```
Si todavía no lo ha hecho, obtenga el script de restauración del repositorio GitHub.

Necesita todos los archivos del repositorio para completar una copia de seguridad y una restauración. Siga las instrucciones de la ayuda de GitHub para clonar o descargar un archivo comprimido del repositorio.
Convierta cada script en un archivo ejecutable ejecutando el mandato siguiente:
```
chmod +x <name-of-script>
```
Sustituya <name-of-script> por el nombre del script.
Restaure los datos del archivo de copia de seguridad de su sistema local en la nueva implantación de Discovery ejecutando el siguiente comando :
```
./all-backup-restore.sh restore -f backup_file_name [--pvc] [--mapping]
```
El parámetro --pvc es opcional. Para obtener más información sobre cuándo utilizarlo, consulte Configuración de trabajos para utilizar PVC.

El parámetro --mapping es opcional. Para obtener más información sobre cuándo utilizarlo, consulte Correlación de clústeres multiarrendatario.

De forma predeterminada, los scripts de copia de seguridad y restauración crean un directorio tmp en el directorio actual que el script utiliza para extraer o comprimir archivos de copia de seguridad. Si ha utilizado el parámetro --use-job al realizar la copia de seguridad de los datos, especifíquelo de nuevo al restaurar los datos. Este parámetro indica al script de copia de seguridad que utilice un trabajo Kubernetes para realizar una copia de seguridad de ElasticSearch y MinIO.

Los pods gateway, ingestion, orchestrator, hadoop worker, y controller se reinician automáticamente.

Restauración de datos manualmente

Restaure manualmente los datos que no se pueden restaurar utilizando el script.

Para restaurar manualmente los datos de una instancia de Discovery, realice los pasos siguientes:

Escriba el siguiente mandato para iniciar la sesión en el clúster de Discovery:

oc login https://<OpenShift administrative console URL> \
-u <cluster administrator username> -p <password>

Escriba el siguiente mandato para conmutar al espacio de nombres adecuado:
```
oc project <discovery-install namespace>
```
Especifique oc get pods|grep crawler.

Escriba el mandato siguiente:

oc cp <path-to-backup-directory> <crawler pod>:/mnt

Utilización de OADP para realizar una copia de seguridad fuera de línea de un clúster donde está instalado Discovery

Si tiene previsto realizar una copia de seguridad fuera de línea y restaurar una instancia entera de IBM Cloud Pak for Data utilizando el programa de utilidad de copia de seguridad y restauración IBM Cloud Pak for Data Red Hat OpenShift para Data Protection (OADP), debe realizar algunos pasos adicionales en el orden correcto para que el programa de utilidad funcione correctamente cuando esté presente Discovery. Consulte Copia de seguridad y restauración fuera de línea deCloud Pak for Data(programa de utilidadOADP).

Copia de seguridad de un clúster sin conexión

Para realizar una copia de seguridad fuera de línea de un clúster, realice los pasos siguientes:

Ejecute el script de copia de seguridad Discovery.
Utilice el programa de utilidad de copia de seguridadOADP para realizar una copia de seguridad del clúster.

Restauración de un clúster fuera de línea

Para restaurar un clúster sin conexión, siga estos pasos:

Utilice el programa de utilidad de copia de seguridad OADP para restaurar el clúster.
Desinstale Discoveryy, a continuación, vuelva a instalar Discovery en el clúster restaurado.

La reinstalación es necesaria porque el programa de utilidad no siempre reinstala Discovery correctamente.
Ejecute el script de restauración Discovery para restaurar los datos.