Visão geral de origens de dados do IBM Cloud
É possível usar o IBM Watson® Discovery no IBM Cloud® para conectar-se e efetuar crawl de documentos de origens remotas.
IBM Cloud IBM Cloud somente
Essas informações se aplicam apenas a implementações gerenciadas Para obter mais informações sobre as origens de dados IBM Cloud Pak for Data, consulte Visão geral das origens de dados do Cloud Pak for Data.
Conecte-se a uma origem de dados externa para que seja possível extrair documentos no Discovery em um planejamento. Discovery extrai documentos da origem de dados efetuando crawl na origem de dados. O crawl é o processo de procura e recuperação sistemática de documentos a partir de um local inicial especificado. Quando o crawler primeiro processa uma origem de dados, ele executa um crawl completo. Cada vez que o crawler é executado após o crawl inicial, ele executa uma atualização, na qual ele verifica apenas arquivos novos e alterados
Todos os conectores de origem de dados Discovery são somente leitura. Independentemente das permissões que são concedidas à conta de crawl, o Discovery nunca grava, atualiza ou exclui qualquer conteúdo na origem de dados original.
É possível usar o Discovery para executar crawl por meio das origens de dados a seguir:
- Box
- IBM Cloud Object Storage
- Microsoft SharePoint Online
- Microsoft SharePoint Em Prem
- Salesforce
- Web Crawl
Sua origem de dados não está listada? Verifique se o IBM® App Connect possui um conector para a origem de dados. É possível usar um conector padrão que é construído para App Connect para enviar dados de uma origem de dados para Discovery. Para obter uma lista das origens de dados suportadas pelos conectores padrão App Connect, consulte Conectores A-Z. Para obter mais informações sobre como integrar App Connect com Discovery, consulte Como usar o IBM App Connect com IBM Watson® Discovery.
Para usar um conector do App Connect, deve-se criar uma instância separada do App Connect. Os custos incorridos de uma instância paga do App Connect não são incluídos com o custo de usar o Discovery. Com exceção da indexação, o site Discovery não oferece suporte a nenhuma integração com o site App Connect que você realize por conta própria.
Requisitos da origem de dados
Os requisitos e as limitações a seguir são específicos para o Discovery on IBM Cloud:
-
Uma coleção pode conectar-se a apenas uma origem de dados
-
Para obter mais informações sobre limites de tamanho, que podem ser diferentes por plano, consulte os tópicos a seguir:
Conexão da origem de dados e isolamento de dados
Quando você se conecta a fontes de dados externas, reduz o isolamento de dados da instância do serviço porque os dados em trânsito entre a fonte e o serviço não podem ser isolados. Todos os outros isolamentos de dados (em repouso, administração, consulta) permanecem completos. Toda a comunicação em andamento entre serviços e origens de dados é criptografada com o TLS v1.2. As chaves privadas para os certificados TLS são criptografadas em repouso com criptografia AES-256-GCM. Os certificados de serviço expiram a cada três anos e as listas de revogação de certificado são atualizados mensalmente. Todas as credenciais são enviadas por uma conexão criptografada que usa TLS v1.2 e são criptografadas em repouso com a criptografia AES-256. Conexões com origens de dados usam os protocolos seguros que são suportados pelas origens de dados.
Conectando a origens de dados com restrições de IP
Algumas origens de dados permitem que os crawlers de apenas um número limitado de endereços de rede ou domínios confiáveis acessem e processem seus dados Se uma das origens de dados que você deseja se conectar a limitar o acesso dessa maneira, será possível incluir endereços IP gerenciados pela IBMna lista de permissões da origem de dados
Os endereços de rede estão sujeitos a mudança periodicamente. É possível monitorar atualizações nesses endereços assinando as notificações de repositório para essa página. Clique em Editar tópico e, em seguida, selecione Observando no diálogo Notificações do repositório.
-
Para instâncias de serviço que são hospedadas em um data center baseado nos EUA e que foram criadas em ou após 1 de maio de 2020, inclua os endereços IP a seguir:
150.238.21.0/28 169.48.255.224/28 174.36.69.128/28
-
Para instâncias de serviço que são hospedadas em data centers não americanos e que foram criadas em ou após 21 de fevereiro de 2021, inclua os endereços IP a seguir:
159.122.203.64/28 158.175.114.128/28 158.176.107.48/28