IBM Cloud Docs
A propos de l'ingestion de données

A propos de l'ingestion de données

L'ingestion de données est le processus d'importation et de chargement de données dans IBM® watsonx.data. Dans l'interface utilisateur de watsonx.data, vous pouvez utiliser le module Ingest data de la page Data manager pour charger des données facilement et en toute sécurité. Vous pouvez également intégrer des fichiers de données locaux ou distants pour créer des tables en utilisant l'option Créer une table à partir d'un fichier.

Lorsque vous ingérez un fichier de données dans watsonx.data, le schéma de table est généré et déduit lorsqu'une requête est exécutée. Les fichiers à intégrer doivent être du même type de format et du même schéma. watsonx.data découvre automatiquement le schéma en fonction du fichier source en cours d'ingestion.

Voici quelques-unes des exigences ou du comportement de l'ingestion de données :

  • L'évolution de schéma n'est pas prise en charge.
  • Le tableau cible doit être un tableau au format iceberg.
  • IBM Storage Ceph, IBM Cloud Object Storage (COS), AWS S3, et MinIO le stockage d'objets sont pris en charge.
  • La propriété pathStyleAccess pour le stockage d'objets n'est pas prise en charge.
  • les formats de fichiers.txt,.csv, Parquet, JSON, ORC et Avro. sont pris en charge en tant que fichiers de données sources.
  • La limite maximale de la taille cumulée des fichiers doit être inférieure à 500 Mo pour l'ingestion locale.
  • Les fichiers Parquet, JSON, ORC et Avro. dépassant 2 Mo ne peuvent pas être prévisualisés, mais ils seront tout de même ingérés avec succès.
  • Les fichiers JSON contenant des objets complexes imbriqués et des tableaux ne doivent pas être prévisualisés dans l'interface utilisateur.
  • Les fichiers JSON complexes sont ingérés tels quels, ce qui se traduit par des tableaux en tant qu'entrées de table. Cela n'est pas recommandé pour une visualisation et une analyse optimales des données.
  • Les clés contenues dans les fichiers JSON doivent être placées entre guillemets pour être correctement analysées et interprétées.

Chargement ou ingestion de données via l'interface de ligne de commande

Un travail d'ingestion dans watsonx.data peut être exécuté avec l'outil ibm-lh. L'outil doit être extrait du ibm-lh-client et installé sur le système local pour exécuter le travail d'ingestion via l'interface de ligne de commande. Pour plus de détails et d'instructions sur l'installation du package ibm-lh-client et l'utilisation de l'outil ibm-lh pour l'ingestion, voir Installation d'ibm-lh-client et Configuration de l'utilitaire de ligne de commande ibm-lh.

ibm-lh-client dans le paquetage IBM Client est désormais obsolète et sera supprimé dans une prochaine version. L'outil ibm-lh est remplacé par ./cpdctl wx-data ingestion pris en charge dans le CLI IBM CPDCTL. Pour plus d'informations sur l'utilisation de IBM CPDCTL CLI, voir IBM cpdctl.

L'outil ibm-lh et la commande ./cpdctl wx-data ingestion prennent en charge les fonctionnalités suivantes :

  • Reconnaissance automatique du schéma en fonction du fichier source ou de la table cible.

  • Options de configuration de table avancées pour les fichiers CSV:

    • Délimiteur
    • En-tête
    • Codage des fichiers
    • Délimiteur de ligne
    • Caractères d'échappement
  • Ingestion d'un seul, de plusieurs fichiers ou d'un seul dossier (pas de sous-dossiers) de S3 et de fichiers Parquet locaux.

  • Ingestion d'un seul, de plusieurs fichiers ou d'un seul dossier (pas de sous-dossiers) de S3 et de fichiers CSV locaux.