copyright: years: 2022, 2024 lastupdated: "2024-11-06"
keywords: 'watsonxdata', Aufnahme, Objektspeicherbucket, Datendateien, Tabellenformat. SQL Query
subcollection: watsonxdata
Vorbereiten der Datenaufnahme
In diesem Abschnitt werden Sie durch die effiziente manuelle Aufnahme von Daten aus einem externen Objektspeicher in Ihr IBM® watsonx.data für Abfragen geführt. Wir unterstützen IBM Storage Ceph, IBM Cloud Object Storage (COS), AWS S3, und MinIO als Objektspeicher-Buckets.
Parquet und CSV sind die unterstützten Dateitypen.
Sie können Parquet-Dateien direkt aufnehmen, um eine optimale Leistung zu erzielen, und CSV-Dateien erfordern ein Staging-Verzeichnis für die Konvertierung in das Parquet-Format.
Vorbereitende Schritte
Für dieses Lernprogramm ist Folgendes erforderlich:
- Es muss ein S3 erstellt werden, in dem sich Datendateien zum Einlesen befinden. Einen S3 erstellen Sie am besten mit der AWS CLI. Der Quellenordner muss entweder alle Parquet-Dateien oder alle CSV-Dateien enthalten. Verwenden Sie AWS CLI, um versteckte "0-Byte"-Dateien zu vermeiden, die Probleme beim Einlesen verursachen können. Ausführliche Informationen zur Erstellung von S3 finden Sie unter Organisieren von Objekten in der Amazon S3 mit Hilfe von Ordnern.
- Der Staging-Ordner muss für CSV-Dateien, einzelne Dateien (Parquet oder CSV) und lokale Parquet-Ordner angegeben werden. Bereitstellungsordner ist nicht für alle Dateien in einem S3-Ordner erforderlich (Quellenordneraufnahme). Die Ausnahme für diesen Fall besteht, wenn es Typunterschiede zwischen verschiedenen Typen von Parquet-Dateien im Ordner S3 gibt oder wenn der Datentyp TIME beteiligt ist.
- Für einen Aufnahmejob über die Befehlszeilenschnittstelle muss das Staging-Bucket dasselbe Bucket sein, das dem Hive-Katalog zugeordnet ist. Das Staging ist nur im Hive-Katalog möglich.
Informationen zu dieser Task
Szenario: Sie verfügen über eine Sammlung von Datendateien in einem S3-Ordner, die Sie in Ihre IBM-Datenbank aufnehmen müssen. Sie müssen eine SQL-Abfrage für Datendateien ausführen, die sich in Ihrem Objektspeicherbucket befinden.
Die Ziele dieses Lernprogramms sind wie folgt aufgelistet:
- Infrastruktur im Service watsonx.data erstellen
- Herstellen der Verbindung mit dem Kundendatenspeicher.
- Abfragen aus dem Speicher
Sie können Spark-Aufnahme verwenden, um Daten aufzunehmen.
Ausführliche Informationen zur Verwendung verschiedener Parameter finden Sie unter Optionen und Parameter, die im Tool 'ibm-lh' unterstützt werden. Informationen zum Einpflegen von Datendateien in watsonx.data mithilfe der Spark-Befehlszeilenschnittstelle sowie Befehle und Konfigurationsdateien finden Sie unter Spark-Aufnahme über die Befehlszeile des Tools 'ibm-lh', Einpflegejob mithilfe von Befehlen erstellen und Einpflegejob mithilfe der Konfigurationsdatei erstellen.
Vorgehensweise
Parquet-oder CSV-Dateien aus einem S3-Ordner aufnehmen
In diesem Abschnitt haben Sie eine Sammlung von Parquet/CSV-Dateien in einem S3-Ordner, die Sie in Ihre IBM-Datenbank aufnehmen müssen.
-
Bereiten Sie den S3-Quellenordner vor:
- Verwenden Sie die AWS-CLI, um die Parquet-/CSV-Dateien in einen allgemeinen S3-Ordner zu kopieren. Vermeiden Sie die Erstellung leerer Ordner über die Konsole, um verdeckte 0-Byte-Dateien zu verhindern.
-
Geben Sie das Staging-Verzeichnis an (für CLI-Aufnahme):
- Geben Sie den Parameter 'staging-location' an, um ein Staging-Verzeichnis für CSV oder bestimmte Parquet-Dateien für die Parquet-Konvertierung anzugeben. Das Aufnahmetool erstellt es, wenn es nicht vorhanden ist.
Weitere Details finden Sie unter Bereitstellungsort.
-
Erstellen Sie eine Schemadatei zur Angabe von CSV-Dateieigenschaften:
- Geben Sie den Schemaparameter an, um Eigenschaften der CSV-Datei anzugeben, wie z. B. Feldbegrenzer, Zeilenbegrenzer, Escapezeichen, Codierung und ob Header in der CSV-Datei vorhanden sind.
Weitere Informationen finden Sie unter Schemadateispezifikationen.
-
Aufnahme im Servermodus einleiten:
- Verwenden Sie die CLI (server-mode), um den Aufnahmeprozess zu starten.
-
CSV-oder bestimmte Parquet-zu-Parquet-Konvertierung:
- Das Ingest-Tool konvertiert die spezifischen Parquet-oder CSV-Dateien in das Parquet-Format und speichert sie im Staging-Verzeichnis.
Ergebnisse
- Optimiert die Datenübertragungsleistung.
- Vereinfacht den Aufnahmeprozess.
- Bietet eine klare Fehlerbehebung bei Fehlern.