IBM Cloud Docs
Vorbereiten der Datenaufnahme

copyright: years: 2022, 2024 lastupdated: "2024-11-06"

keywords: 'watsonxdata', Aufnahme, Objektspeicherbucket, Datendateien, Tabellenformat. SQL Query

subcollection: watsonxdata


Vorbereiten der Datenaufnahme

In diesem Abschnitt werden Sie durch die effiziente manuelle Aufnahme von Daten aus einem externen Objektspeicher in Ihr IBM® watsonx.data für Abfragen geführt. Wir unterstützen IBM Storage Ceph, IBM Cloud Object Storage (COS), AWS S3, und MinIO als Objektspeicher-Buckets.

Parquet und CSV sind die unterstützten Dateitypen.

Sie können Parquet-Dateien direkt aufnehmen, um eine optimale Leistung zu erzielen, und CSV-Dateien erfordern ein Staging-Verzeichnis für die Konvertierung in das Parquet-Format.

Vorbereitende Schritte

Für dieses Lernprogramm ist Folgendes erforderlich:

  • Es muss ein S3 erstellt werden, in dem sich Datendateien zum Einlesen befinden. Einen S3 erstellen Sie am besten mit der AWS CLI. Der Quellenordner muss entweder alle Parquet-Dateien oder alle CSV-Dateien enthalten. Verwenden Sie AWS CLI, um versteckte "0-Byte"-Dateien zu vermeiden, die Probleme beim Einlesen verursachen können. Ausführliche Informationen zur Erstellung von S3 finden Sie unter Organisieren von Objekten in der Amazon S3 mit Hilfe von Ordnern.
  • Der Staging-Ordner muss für CSV-Dateien, einzelne Dateien (Parquet oder CSV) und lokale Parquet-Ordner angegeben werden. Bereitstellungsordner ist nicht für alle Dateien in einem S3-Ordner erforderlich (Quellenordneraufnahme). Die Ausnahme für diesen Fall besteht, wenn es Typunterschiede zwischen verschiedenen Typen von Parquet-Dateien im Ordner S3 gibt oder wenn der Datentyp TIME beteiligt ist.
  • Für einen Aufnahmejob über die Befehlszeilenschnittstelle muss das Staging-Bucket dasselbe Bucket sein, das dem Hive-Katalog zugeordnet ist. Das Staging ist nur im Hive-Katalog möglich.

Informationen zu dieser Task

Szenario: Sie verfügen über eine Sammlung von Datendateien in einem S3-Ordner, die Sie in Ihre IBM-Datenbank aufnehmen müssen. Sie müssen eine SQL-Abfrage für Datendateien ausführen, die sich in Ihrem Objektspeicherbucket befinden.

Die Ziele dieses Lernprogramms sind wie folgt aufgelistet:

  • Infrastruktur im Service watsonx.data erstellen
  • Herstellen der Verbindung mit dem Kundendatenspeicher.
  • Abfragen aus dem Speicher

Sie können Spark-Aufnahme verwenden, um Daten aufzunehmen.

Ausführliche Informationen zur Verwendung verschiedener Parameter finden Sie unter Optionen und Parameter, die im Tool 'ibm-lh' unterstützt werden. Informationen zum Einpflegen von Datendateien in watsonx.data mithilfe der Spark-Befehlszeilenschnittstelle sowie Befehle und Konfigurationsdateien finden Sie unter Spark-Aufnahme über die Befehlszeile des Tools 'ibm-lh', Einpflegejob mithilfe von Befehlen erstellen und Einpflegejob mithilfe der Konfigurationsdatei erstellen.

Vorgehensweise

Parquet-oder CSV-Dateien aus einem S3-Ordner aufnehmen

In diesem Abschnitt haben Sie eine Sammlung von Parquet/CSV-Dateien in einem S3-Ordner, die Sie in Ihre IBM-Datenbank aufnehmen müssen.

  1. Bereiten Sie den S3-Quellenordner vor:

    • Verwenden Sie die AWS-CLI, um die Parquet-/CSV-Dateien in einen allgemeinen S3-Ordner zu kopieren. Vermeiden Sie die Erstellung leerer Ordner über die Konsole, um verdeckte 0-Byte-Dateien zu verhindern.
  2. Geben Sie das Staging-Verzeichnis an (für CLI-Aufnahme):

    • Geben Sie den Parameter 'staging-location' an, um ein Staging-Verzeichnis für CSV oder bestimmte Parquet-Dateien für die Parquet-Konvertierung anzugeben. Das Aufnahmetool erstellt es, wenn es nicht vorhanden ist.

    Weitere Details finden Sie unter Bereitstellungsort.

  3. Erstellen Sie eine Schemadatei zur Angabe von CSV-Dateieigenschaften:

    • Geben Sie den Schemaparameter an, um Eigenschaften der CSV-Datei anzugeben, wie z. B. Feldbegrenzer, Zeilenbegrenzer, Escapezeichen, Codierung und ob Header in der CSV-Datei vorhanden sind.

    Weitere Informationen finden Sie unter Schemadateispezifikationen.

  4. Aufnahme im Servermodus einleiten:

    • Verwenden Sie die CLI (server-mode), um den Aufnahmeprozess zu starten.
  5. CSV-oder bestimmte Parquet-zu-Parquet-Konvertierung:

    • Das Ingest-Tool konvertiert die spezifischen Parquet-oder CSV-Dateien in das Parquet-Format und speichert sie im Staging-Verzeichnis.

Ergebnisse

  • Optimiert die Datenübertragungsleistung.
  • Vereinfacht den Aufnahmeprozess.
  • Bietet eine klare Fehlerbehebung bei Fehlern.