Daten sichern und wiederherstellen
Verwenden Sie die folgenden Verfahren, um Daten in IBM Watson® Discovery zu sichern und wiederherzustellen.
IBM Cloud Pak for Data IBM Software Hub
Diese Informationen gelten nur für installierte Implementierungen.
Sie verwenden dieselbe Gruppe von Sicherungs-und Wiederherstellungsscripts, um Daten in allen unterstützten Upgradepfaden zu sichern und wiederherzustellen. Das Sicherungsscript speichert die Versionsnummer des Service mit Daten, die aus der vorhandenen Implementierung gesichert werden sollen. Das Wiederherstellungsskript erkennt die Version des Dienstes, die auf der neuen Bereitstellung installiert ist, und führt dann die entsprechenden Schritte aus, um Daten für die erkannte Version wiederherzustellen.
In der folgenden Tabelle sind die Upgradepfade aufgelistet, die von den Scripts unterstützt werden.
Verwendete Version | Version, auf die Sie ein Upgrade durchführen |
---|---|
5.1.x | Spätere Versionen von 5.1.x, 5.2.0 |
5.0.x | Spätere Versionen von 5.0.x, 5.1.x, 5.2.0 |
4.8.8, 4.8.9 | 5.1.1 oder spätere Versionen |
4.8.7 | Spätere Versionen von 4.8.x, 5.1.x, 5.2.0 |
4.8.6 | Spätere Versionen von 4.8.x, 5.0.3, 5.1.x, 5.2.0 |
4.8.x | Spätere Versionen von 4.8.x, 5.0.x, 5.1.x, 5.2.0 |
4.7.x | 4.8.x, 5.0.x, 5.1.x |
4.6.x | 4.8.x, 5.0.x, 5.1.x |
4.5.x | 4.8.x, 5.0.x, 5.1.x |
4.0.x | 4.8.x mit Ausnahme von 4.8.0 |
Wenn Sie ein Upgrade auf 5.2.x durchführen, wird in den folgenden Themen eine einfachere Methode beschrieben, um das Upgrade abzuschließen:
- Aktualisieren von Watson Discovery von der Version 5.1.
- Upgrade von Watson Discovery von Version 5.0.
- Upgrade von Watson Discovery von Version 4.8.
Wenn Sie ein Upgrade auf 5.1.x durchführen, wird in den folgenden Themen eine einfachere Möglichkeit zum Abschließen des Upgrades beschrieben:
Wenn Sie ein Upgrade auf 5.0.xdurchführen, wird eine einfachere Methode zum Durchführen des Upgrades in den folgenden Abschnitten beschrieben:
- Upgrade für Watson Discovery von Version 4.8.xdurchführen
- Upgrade für Watson Discovery von Version 4.7durchführen
Wenn Sie das Sicherungs-und Wiederherstellungsdienstprogramm von IBM Cloud Pak for Data Red Hat OpenShift APIs for Data Protection (OADP) verwenden, um einen gesamten Cluster offline zu sichern und wiederherzustellen, sind einige zusätzliche Schritte erforderlich. Weitere Informationen finden Sie unter OADP zum Sichern eines Clusters, in dem Discovery installiert ist. Informationen zur OADP-Onlinesicherung und -wiederherstellung finden Sie unter Cloud Pak for Data-Onlinesicherung und -wiederherstellung.
Sie können ein Inplace-Upgrade von einer Version von 4.8.x auf eine höhere Version von 4.8.y durchführen. Weitere Informationen finden Sie unter Upgrade für Watson Discovery von Version 4.8.x auf eine Aktualisierung von 4.8 durchführen.
Sie können ein Inplace-Upgrade von einer Version von 4.7.x auf eine höhere Version von 4.7.y durchführen. Weitere Informationen finden Sie unter Upgrade von Watson Discovery von Version 4.7.x auf eine spätere Aktualisierung von 4.7.
Sie können ein Inplace-Upgrade von einer Version von 4.6.x auf eine höhere Version von 4.6.y durchführen. Weitere Informationen finden Sie unter Upgrade von Watson Discovery von Version 4.6.x auf eine spätere Aktualisierung von 4.6.
Sie können ein Inplace-Upgrade von einer Version von 4.5.x auf eine höhere Version von 4.5.y durchführen. Weitere Informationen finden Sie unter Upgrade von Watson Discovery auf die neueste Version 4.5-Aktualisierung.
Sie können ein Inplace-Upgrade von einer 4.0.x-Version auf eine höhere 4.0.y-Version durchführen. Weitere Informationen finden Sie unter Upgrade von Watson Discovery auf eine neuere 4.0-Aktualisierung.
Prozessübersicht
Auf hoher Ebene umfasst der Prozess die folgenden Schritte:
- Sichern Sie Ihre Discovery-Daten mithilfe des Sicherungsscripts.
- Installieren Sie die neueste Version von IBM Cloud Pak for Data.
- Installieren Sie die neueste Version des Discovery-Service im Cluster.
- Stellen Sie die gesicherten Discovery-Daten mithilfe des Wiederherstellungsscripts wieder her.
Einschränkungen bei der Sicherung und Wiederherstellung
Die folgenden Daten können Sie nicht migrieren:
- Modelle mit Vorschlägen für Wörterverzeichnisse. Diese Modelle werden beim Erstellen eines Wörterverzeichnisses erstellt. Das Wörterverzeichnis ist in der Sicherung enthalten, der Begriff 'Vorschlagsmodell' jedoch nicht. Verarbeiten Sie die migrierten Objektgruppen erneut, um Vorschläge für Wörterverzeichnisbegriffe zu aktivieren.
- Sie können keine Curations sichern und wiederherstellen oder migrieren, da Curations eine Betafunktion sind.
Sie können einige Daten mit Hilfe der Sicherungs- und Wiederherstellungsskripte sichern und wiederherstellen, andere Daten müssen Sie jedoch manuell sichern und wiederherstellen. Die folgenden Daten müssen manuell gesichert werden:
- Ordner und Dokumente im lokalen Dateisystem, die mit der Datenquelle "Lokales Dateisystem" durchsucht werden können.
Die folgenden Aktualisierungen werden ausgeführt, wenn Ihre Sammlungen wiederhergestellt werden:
- Jede Objektgruppe, die Dokumente enthält, die beim Hochladen von Daten erstellt wurden, wird bei der Wiederherstellung automatisch erneut durchsucht und neu indexiert. Diesen Dokumenten werden in den wiederhergestellten Sammlungen neue Dokumentennummern zugewiesen.
- Gruppen, die in Content Mining-Projekten verwendet wurden, werden bei der Wiederherstellung automatisch erneut durchsucht und neu indexiert. Nur Dokumente, die durch Hochladen von Daten hinzugefügt werden, erhalten neue Dokument-ID-Nummern in den wiederhergestellten Sammlungen.
Methoden zur Sicherung und Wiederherstellung
Sie können Ihre Instanz von Discovery manuell oder mithilfe von Scripts sichern und wiederherstellen.
- Sicherungsscripts verwenden
- Verwendung der Wiederherstellungsskripte
- Daten manuell sichern
- Daten manuell wiederherstellen
Sie müssen über Verwaltungszugriff auf die Discovery-Instanz in Ihrem Discovery-Cluster (in dem die zu sichernden Daten gespeichert sind) und Verwaltungszugriff auf die neue Instanz (in der die Daten wiederhergestellt werden) verfügen.
Die Sicherungs-und Wiederherstellungsscripts führen viele Operationen aus und können ziemlich lange dauern. Um Zeitlimitüberschreitungen zu vermeiden, führen Sie ein Tool aus, das Zeitlimitüberschreitungen verhindert, wie z. B. nohup
.
Sicherungsscripts verwenden
Da Änderungen an den auf IBM Watson® Discovery gespeicherten Daten während einer Sicherung dazu führen können, dass die Sicherung beschädigt und unbrauchbar wird, sind während des Sicherungszeitraums keine Anfragen während des Fluges erlaubt.
Eine unvollständige Anforderung ist eine beliebige IBM Watson® Discovery-Aktion, die Daten verarbeitet, einschließlich der folgenden Aktionen:
- Quellencrawlersuche (terminiert oder nicht terminiert)
- Dokumente aufnehmen
- Modell für trainierte Abfrage trainieren
Die Speicherkapazität, die auf dem Knoten verfügbar ist, auf dem Sie das Sicherungsscript ausführen, muss dreimal so groß sein wie die größte Sicherungsdatei im Datenspeicher, die Sie sichern wollen. Wenn Ihr Datenspeicher groß ist, ziehen Sie die Verwendung eines Persistent Volume Claim in Betracht, anstatt sich auf den ephemeren Speicher des Knotens zu verlassen. Weitere Informationen finden Sie unter Jobs für die Verwendung von PVC konfigurieren.
Führen Sie die folgenden Schritte aus, um die Daten von IBM Watson® Discovery mit Hilfe der Sicherungsskripte zu sichern:
-
Geben Sie den folgenden Befehl ein, um den aktuellen Namensbereich zu definieren, in dem Ihre Discovery-Instanz bereitgestellt wird:
oc project <namespace>
-
Rufen Sie das Sicherungsscript aus dem GitHub-Repositoryab.
Sie benötigen alle Dateien im Repository, um eine Sicherung und Wiederherstellung auszuführen. Befolgen Sie die Anweisungen in der Hilfe von GitHub, um eine komprimierte Datei des Repositorys zu klonen oder herunterzuladen.
-
Machen Sie jedes Script zu einer ausführbaren Datei, indem Sie den folgenden Befehl ausführen:
chmod +x <name-of-script>
Ersetzen Sie
<name-of-script>
durch den Namen des Scripts. -
Führen Sie das Script
all-backup-restore.sh
aus../all-backup-restore.sh backup [ -f backup_file_name ] [--pvc]
Der Parameter
-f backup_file_name
ist optional. Der Namewatson_discovery_<timestamp>.backup
wird verwendet, wenn Sie keinen Namen angeben.Der Parameter
--pvc
ist optional. Weitere Informationen zu den Verwendungszwecken finden Sie unter Jobs für die Verwendung von PVC konfigurieren. Standardmäßig erstellen die Sicherungs-und Wiederherstellungsscripts das Verzeichnistmp
im aktuellen Verzeichnis, das das Script zum Extrahieren oder Komprimieren von Sicherungsdateien verwendet.Wenn Probleme mit der Sicherung auftreten, führen Sie den Sicherungsbefehl erneut aus und schließen Sie den Parameter
--use-job
ein. Dieser Parameter weist das Sicherungsscript an, einen Kubernetes-Job zu verwenden, um ElasticSearch und MinIO zusätzlich zu Postgreszu sichern, der standardmäßig einen Kubernetes-Job verwendet. Wenn die Größe der Daten in ElasticSearch und MinIO groß ist und der ephemere Speicher nicht ausreicht, schließen Sie die Option--pvc
ein. In diesem Fall verwendet das Script die Anforderung eines persistenten Datenträgers, die mit der Option--pvc
angegeben wird, anstelle des ephemerenemptyDir
-Speichers als temporäres Arbeitsverzeichnis für den Job.
Dateien aus der Sicherungsarchivdatei extrahieren
Die Scripts generieren eine Archivdatei, einschließlich der Sicherungsdateien der in Schritt 1 aufgelisteten Services.
-
Sie können Dateien aus der Archivdatei extrahieren, indem Sie den folgenden Befehl ausführen:
tar xvf <backup_file_name>
Jobs für die Verwendung von PVC konfigurieren
Der Sicherungs-und Wiederherstellungsprozess verwendet Kubernetes. Die Jobs verwenden ephemere Datenträger, die ephemeren Speicher verwenden. Es handelt sich um einen temporären Speichermount auf dem Pod, der lokalen Speicher eines Knotens
verwendet. In seltenen Fällen ist der ephemere Speicher nicht groß genug. Sie können den Job optional anweisen, einen Persistent Volume Claim (PVC) an seinen Pod anzuhängen, um die Sicherungsdaten zu speichern. Geben Sie dazu die Option
--pvc
an, wenn Sie das Script ausführen. Andernfalls verwenden die Scripts emptyDir
von Kubernetes.
In den meisten Fällen müssen Sie keinen persistenten Datenträger verwenden. Wenn Sie sich für die Verwendung eines persistenten Datenträgers entscheiden, muss der Datenträger dreimal so groß sein wie die größte Sicherungsdatei im Datenspeicher. Die Größe der Sicherungsdatei des Datenspeichers hängt von der Verwendung ab. Nach der Erstellung einer Sicherung können Sie Dateien aus der Archivdatei extrahieren, um die Dateigrößen zu überprüfen.
Außerdem muss auf dem lokalen System doppelt so viel Plattenspeicherplatz verfügbar sein wie die Größe des Datenspeichers, da das Archiv der Daten aufgeteilt und anschließend erneut kombiniert wird, um Probleme zu vermeiden, die andernfalls auftreten können, wenn große Dateien vom Clusterknoten auf das lokale System kopiert werden.
Multi-Tenant-Cluster zuordnen
Wenn Sie Daten, die aus einer Version vor 4.0.6 gesichert wurden, in einem späteren Release wiederherstellen und für die gesicherte Implementierung mehrere Instanzen des Service bereitgestellt wurden, ist ein zusätzlicher Schritt erforderlich. Sie müssen eine JSON-Datei erstellen, die die Serviceinstanz-IDs zwischen dem gesicherten Cluster und dem Cluster zuordnet, in dem die Daten wiederhergestellt werden.
Dieser Zuordnungsschritt ist nicht erforderlich, wenn die Instanz-IDs zwischen den Sicherungs-und Wiederherstellungsschritten nicht geändert wurden. Sie können diesen Schritt beispielsweise überspringen, wenn Sie Daten in demselben Cluster wiederherstellen, in dem sie gesichert wurden, oder wenn Sie Daten in einem brandneuen Cluster wiederherstellen, der keine Discovery-Instanzen hat.
Um ein Mapping zu erstellen, führen Sie die folgenden Schritte aus:
-
Extrahieren Sie die Zuordnungsschablonendatei aus der Sicherungsarchivdatei.
tar xf <backup_file_name> tmp/instance_mapping.json -O > <mapping_file_name>
-
Erstellen Sie eine Liste der Namen und Instanz-IDs der Serviceinstanzen, die in dem Cluster bereitgestellt werden, in dem die Daten wiederhergestellt werden.
Die Instanz-ID ist Teil der URL, die auf der Zusammenfassungsseite der Instanz angegeben ist. Erweitern Sie im Hauptmenü des IBM Cloud Pak for Data-Webclients "Services" und klicken Sie dann auf "Instanzen". Suchen Sie Ihre Instanz und klicken Sie darauf, um die zugehörige Zusammenfassungsseite zu öffnen. Scrollen Sie zum Abschnitt "Zugangsinformationen" auf der Seite und suchen Sie nach der Instanz-ID im URL feld.
Beispiel:
https://<host_name>/wd/<namespace>-wd/instances/<instance_id>/api
.Wiederholen Sie diesen Schritt, um die Instanz-ID für jede bereitgestellte Instanz zu notieren.
-
Bearbeiten Sie die Zuordnungsdatei.
Fügen Sie die Instanz-IDs für die im vorherigen Schritt aufgelisteten Zielserviceinstanzen hinzu. Der folgende Ausschnitt ist ein Beispiel für eine Mapping-Datei.
{ "instance_mappings": [ { "display_name": "discovery-1", "source_instance_id": "1644822491506334", "dest_instance_id": "<new_instance_id>" }, { "display_name": "discovery-2", "source_instance_id": "1644822552830325", "dest_instance_id": "<new_instance_id>" } ] }
Wenn Sie das Wiederherstellungsscript ausführen, schließen Sie den Parameter --mapping
ein, um diese Zuordnungsdatei anzuwenden, wenn die Daten wiederhergestellt werden.
Daten manuell sichern
Sichern Sie Daten, die nicht mit den Scripts gesichert wurden, manuell.
Führen Sie die folgenden Schritte aus, um Ihre Daten aus einer Discovery-Instanz manuell zu sichern:
-
Geben Sie den folgenden Befehl ein, um sich bei Ihrem Cluster mit Discovery anzumelden:
oc login https://<OpenShift administrative console URL> \ -u <cluster administrator username> -p <password>
-
Geben Sie den folgenden Befehl ein, um in den richtigen Namensbereich zu wechseln:
oc project <discovery-install namespace>
-
Geben Sie
oc get pods|grep crawler
ein. -
Geben Sie den folgenden Befehl ein:
oc cp <crawler pod>:/mnt <path-to-backup-directory>
Wiederherstellungsscripts verwenden
Wenn Sie Daten aus einer Version vor 4.0.6 wiederherstellen und einen Multi-Tenant-Cluster in einem Multi-Tenant-Cluster wiederherstellen, müssen Sie einen zusätzlichen Schritt ausführen, bevor Sie beginnen. Weitere Informationen finden Sie unter Multi-Tenant-Cluster zuordnen.
Führen Sie die folgenden Schritte aus, um Daten in IBM Watson® Discovery mithilfe der Wiederherstellungsskripte wiederherzustellen:
-
Geben Sie den folgenden Befehl ein, um den aktuellen Namensbereich zu definieren, in dem Ihre Discovery-Instanz bereitgestellt wird:
oc project <namespace>
-
Falls noch nicht geschehen, rufen Sie das Wiederherstellungsscript aus dem GitHub-Repositoryab.
Sie benötigen alle Dateien im Repository, um eine Sicherung und Wiederherstellung auszuführen. Befolgen Sie die Anweisungen in der Hilfe von GitHub, um eine komprimierte Datei des Repositorys zu klonen oder herunterzuladen.
-
Machen Sie jedes Script zu einer ausführbaren Datei, indem Sie den folgenden Befehl ausführen:
chmod +x <name-of-script>
Ersetzen Sie
<name-of-script>
durch den Namen des Scripts. -
Stellen Sie die Daten aus der Sicherungsdatei auf Ihrem lokalen System in der neuen Bereitstellung Discovery wieder her, indem Sie den folgenden Befehl ausführen:
./all-backup-restore.sh restore -f backup_file_name [--pvc] [--mapping]
Der Parameter
--pvc
ist optional. Weitere Informationen zu den Verwendungszwecken finden Sie unter Jobs für die Verwendung von PVC konfigurieren.Der Parameter
--mapping
ist optional. Weitere Informationen zur Verwendung finden Sie unter Multi-Tenant-Cluster zuordnen.Standardmäßig erstellen die Sicherungs-und Wiederherstellungsscripts das Verzeichnis
tmp
im aktuellen Verzeichnis, das das Script zum Extrahieren oder Komprimieren von Sicherungsdateien verwendet. Wenn Sie den Parameter--use-job
beim Sichern der Daten verwendet haben, geben Sie ihn erneut an, wenn Sie die Daten zurückschreiben. Dieser Parameter weist das Sicherungsscript an, einen Kubernetes-Job zum Sichern von ElasticSearch und MinIOzu verwenden.Die Pods
gateway
,ingestion
,orchestrator
,hadoop worker
undcontroller
werden automatisch neu gestartet.
Daten manuell wiederherstellen
Stellen Sie Daten, die nicht wiederhergestellt werden können, mithilfe des Scripts manuell wieder her.
Führen Sie die folgenden Schritte aus, um Ihre Daten aus einer Discovery-Instanz manuell wiederherzustellen:
-
Geben Sie den folgenden Befehl ein, um sich bei Ihrem Cluster mit Discovery anzumelden:
oc login https://<OpenShift administrative console URL> \ -u <cluster administrator username> -p <password>
-
Geben Sie den folgenden Befehl ein, um in den richtigen Namensbereich zu wechseln:
oc project <discovery-install namespace>
-
Geben Sie
oc get pods|grep crawler
ein. -
Geben Sie den folgenden Befehl ein:
oc cp <path-to-backup-directory> <crawler pod>:/mnt
OADP für die Offlinesicherung eines Clusters verwenden, auf dem Discovery installiert ist
Wenn Sie planen, eine vollständige IBM Cloud Pak for Data-Instanz mit dem Sicherungs-und Wiederherstellungsdienstprogramm von IBM Cloud Pak for Data Red Hat OpenShift APIs for Data Protection (OADP) offline zu sichern und wiederherzustellen, müssen Sie einige zusätzliche Schritte in der richtigen Reihenfolge ausführen, damit das Dienstprogramm ordnungsgemäß funktioniert, wenn Discovery vorhanden ist. Siehe Cloud Pak for Data Offlinesicherung und -wiederherstellung(DienstprogrammOADP).
Sichern eines Clusters offline
Führen Sie die folgenden Schritte aus, um eine Offlinesicherung eines Clusters zu erstellen:
-
Führen Sie das Sicherungsscript Discovery aus.
-
Verwenden Sie das OADP-Sicherungsdienstprogramm, um den Cluster zu sichern.
Cluster offline wiederherstellen
Um einen Cluster offline wiederherzustellen, führen Sie die folgenden Schritte aus:
-
Verwenden Sie das OADP-Sicherungsdienstprogramm, um den Cluster wiederherzustellen.
-
Deinstallieren Sie Discoveryund installieren Sie dann Discovery erneut im wiederhergestellten Cluster.
Die Neuinstallation ist erforderlich, weil das Dienstprogramm Discovery nicht immer ordnungsgemäß erneut installiert.
-
Führen Sie das Wiederherstellungsscript Discovery aus, um Ihre Daten wiederherzustellen.