keywords: 'watsonxdata', Aufnahme, Objektspeicherbucket, Datendateien, Tabellenformat. SQL Query

subcollection: watsonxdata

Vorbereiten der Datenaufnahme

In diesem Abschnitt werden Sie durch die effiziente manuelle Aufnahme von Daten aus einem externen Objektspeicher in Ihr IBM® watsonx.data für Abfragen geführt. Wir unterstützen IBM Storage Ceph, IBM Cloud Object Storage (COS), AWS S3, und MinIO als Objektspeicher-Buckets.

Parquet und CSV sind die unterstützten Dateitypen.

Sie können Parquet-Dateien direkt aufnehmen, um eine optimale Leistung zu erzielen, und CSV-Dateien erfordern ein Staging-Verzeichnis für die Konvertierung in das Parquet-Format.

Vorbereitende Schritte

Für dieses Lernprogramm ist Folgendes erforderlich:

Es muss ein S3 erstellt werden, in dem sich Datendateien zum Einlesen befinden. Einen S3 erstellen Sie am besten mit der AWS CLI. Der Quellenordner muss entweder alle Parquet-Dateien oder alle CSV-Dateien enthalten. Verwenden Sie AWS CLI, um versteckte "0-Byte"-Dateien zu vermeiden, die Probleme beim Einlesen verursachen können. Ausführliche Informationen zur Erstellung von S3 finden Sie unter Organisieren von Objekten in der Amazon S3 mit Hilfe von Ordnern.
Der Staging-Ordner muss für CSV-Dateien, einzelne Dateien (Parquet oder CSV) und lokale Parquet-Ordner angegeben werden. Bereitstellungsordner ist nicht für alle Dateien in einem S3-Ordner erforderlich (Quellenordneraufnahme). Die Ausnahme für diesen Fall besteht, wenn es Typunterschiede zwischen verschiedenen Typen von Parquet-Dateien im Ordner S3 gibt oder wenn der Datentyp TIME beteiligt ist.
Für einen Aufnahmejob über die Befehlszeilenschnittstelle muss das Staging-Bucket dasselbe Bucket sein, das dem Hive-Katalog zugeordnet ist. Das Staging ist nur im Hive-Katalog möglich.

Informationen zu dieser Task

Szenario: Sie verfügen über eine Sammlung von Datendateien in einem S3-Ordner, die Sie in Ihre IBM-Datenbank aufnehmen müssen. Sie müssen eine SQL-Abfrage für Datendateien ausführen, die sich in Ihrem Objektspeicherbucket befinden.

Die Ziele dieses Lernprogramms sind wie folgt aufgelistet:

Infrastruktur im Service watsonx.data erstellen
Herstellen der Verbindung mit dem Kundendatenspeicher.
Abfragen aus dem Speicher

Sie können Spark-Aufnahme verwenden, um Daten aufzunehmen.

Ausführliche Informationen zur Verwendung verschiedener Parameter finden Sie unter Optionen und Parameter, die im Tool 'ibm-lh' unterstützt werden. Informationen zum Einpflegen von Datendateien in watsonx.data mithilfe der Spark-Befehlszeilenschnittstelle sowie Befehle und Konfigurationsdateien finden Sie unter Spark-Aufnahme über die Befehlszeile des Tools 'ibm-lh', Einpflegejob mithilfe von Befehlen erstellen und Einpflegejob mithilfe der Konfigurationsdatei erstellen.

Vorgehensweise

Parquet-oder CSV-Dateien aus einem S3-Ordner aufnehmen

In diesem Abschnitt haben Sie eine Sammlung von Parquet/CSV-Dateien in einem S3-Ordner, die Sie in Ihre IBM-Datenbank aufnehmen müssen.

Bereiten Sie den S3-Quellenordner vor:
- Verwenden Sie die AWS-CLI, um die Parquet-/CSV-Dateien in einen allgemeinen S3-Ordner zu kopieren. Vermeiden Sie die Erstellung leerer Ordner über die Konsole, um verdeckte 0-Byte-Dateien zu verhindern.
Geben Sie das Staging-Verzeichnis an (für CLI-Aufnahme):
- Geben Sie den Parameter 'staging-location' an, um ein Staging-Verzeichnis für CSV oder bestimmte Parquet-Dateien für die Parquet-Konvertierung anzugeben. Das Aufnahmetool erstellt es, wenn es nicht vorhanden ist.
Weitere Details finden Sie unter Bereitstellungsort.
Erstellen Sie eine Schemadatei zur Angabe von CSV-Dateieigenschaften:
- Geben Sie den Schemaparameter an, um Eigenschaften der CSV-Datei anzugeben, wie z. B. Feldbegrenzer, Zeilenbegrenzer, Escapezeichen, Codierung und ob Header in der CSV-Datei vorhanden sind.
Weitere Informationen finden Sie unter Schemadateispezifikationen.
Aufnahme im Servermodus einleiten:
- Verwenden Sie die CLI (server-mode), um den Aufnahmeprozess zu starten.
CSV-oder bestimmte Parquet-zu-Parquet-Konvertierung:
- Das Ingest-Tool konvertiert die spezifischen Parquet-oder CSV-Dateien in das Parquet-Format und speichert sie im Staging-Verzeichnis.

Ergebnisse

Optimiert die Datenübertragungsleistung.
Vereinfacht den Aufnahmeprozess.
Bietet eine klare Fehlerbehebung bei Fehlern.