Banco de dados
Crawl documentos que são armazenados em um banco de dados que suporta a Conectividade de Banco de Dados Java (JDBC) API.
IBM Cloud Pak for Data IBM Software Hub
Essas informações se aplicam apenas a implementações instaladas.
IBM Watson® Discovery não é compatível com a autenticação Kerberos em Cloud Pak for Data.
Quais documentos estão engatinados
- Cada linha no banco de dados é engatinhado e adicionado à coleção como um documento. As colunas são indexadas como metadados.
- O crawler tenta engatinhar e indexar conteúdo, como o BLOB/BINARY, que é armazenado no banco de dados. Tipos de arquivo que são suportados por Discovery são indexados. Para obter mais informações, consulte Tipos de arquivos suportados.
- Quando uma fonte é rastreada novamente, novos documentos são adicionados, documentos atualizados são modificados para a versão atual e documentos excluídos são excluídos do índice da coleção.
- Todos os conectores de origem de dados Discovery são de leitura. Independentemente das permissões que são concedidas à conta de crawl, Discovery nunca grava, atualiza ou exclui qualquer conteúdo na origem de dados original.
Requisitos da origem de dados
Além dos requisitos de origem de dados para todas as implementações instaladas, sua origem de dados do banco de dados deve atender aos seguintes requisitos:
-
O Discovery suporta as versões de origem de dados a seguir:
- Data Virtualization em IBM Cloud Pak for Data 1.8.0, 1.8.3 que usam Db2 11.5
- IBM Db2: 10.5, 11.1, 11.5
- Microsoft SQL Server: 2012, 2014, 2016, 2017
- Oracle Database: 12c, 18c, 19c
- PostgreSQL: 9.6, 10, 11
O suporte para Data Virtualization foi adicionado com os releases IBM Cloud Pak for Data 4.5.x
-
Você deve obter quaisquer licenças de serviço necessárias para a fonte de dados com a qual você deseja se conectar. Para obter mais informações sobre licenças, entre em contato com o administrador do sistema da fonte de dados.
Etapa de pré-requisito
-
Decida quais tabelas de banco de dados você deseja engatinhar. É possível rastrear várias tabelas em uma coleção e especificar tabelas que tenham esquemas ou conjuntos de colunas diferentes. Você deve saber as seguintes informações:
- Nomes do esquema
- Nomes de tabelas
Para Data Virtualization em IBM Cloud Pak for Data, você pode obter esses detalhes a partir do cliente web IBM Cloud Pak for Data. Clique no ícone do menu principal, expanda Dados e, em seguida, selecione Data virtualization. No início da página, opte por mostrar Dados Virtualizados.
Visualização de dados virtualizados em Cloud Pak for Data -
Tenha cuidado se você planeja engatinhar várias tabelas que possuem colunas com o mesmo nome mas tipos de dados diferentes. Em Projetos de Mineração de Conteúdo, colunas com o mesmo nome mas tipos de dados diferentes são atribuídos a campos que possuem um sufixo tipo de dados no nome, como
DATA_string
. Em todos os outros tipos de projeto, os dados em uma das tabelas são excluídos do índice. Por exemplo, se você tiver duas tabelas com colunas chamadasDATA
e a colunaDATA
em uma tabela for preenchida com datas e a coluna na outra tabela for preenchida com cadeias de caracteres, os dados em uma das tabelas serão excluídos do índice. -
Obtenha as credenciais do usuário para um usuário que tenha permissão para acessar as tabelas que você deseja engatinhar.
-
Antes de se conectar a um banco de dados, você deve obter a biblioteca do driver JDBC para o banco de dados. Ao configurar a fonte de dados do banco de dados, você é solicitado a especificar o caminho de classe do driver JDBC.
-
Antes de se conectar ao serviço Data Virtualization usando JDBC, você deve instalar pacotes de drivers do IBM Data Server. Para obter mais informações, consulte Conectando aplicativos para o serviço Data Virtualization.
-
Se você deseja se conectar a uma instância de Data Virtualization hospedada em um cluster diferente do seu serviço Discovery, você deve encaminhá-lo para o tráfego que é roteado para Data Virtualization a partir de um nó de infraestrutura externo para os nós principais do seu cluster. Para obter mais informações, consulte Atualizando o arquivo de configuração do HAProxy.
-
Faça o download dos arquivos JAR para a biblioteca do driver JDBC a partir do servidor de banco de dados ou do site do fornecedor.
Os arquivos a seguir estão associados a cada banco de dados:
- Db2 e Data Virtualization:
db2jcc4.jar
- Oracle:
ojdbc8.jar
- SQL Server:
mssql-jdbc-7.2.2.jre8.jar
- PostgreSQL:
postgresql-42.2.6.jar
- Db2 e Data Virtualization:
-
Compacte os arquivos JAR em um único arquivo compactado.
Se você tiver um driver JDBC que tenha apenas um arquivo JAR, pule esta etapa.
-
Faça uma nota de onde o motorista está armazenado. Você deve especificar o diretório onde você armazina este arquivo JAR ou compactado no próximo procedimento para que Discovery possa fazer o upload.
Conectando-se a uma fonte de dados
Antes de começar, se você planeja aplicar enriquecimentos em seus dados, crie a coleção em um tipo de projeto de Mineração de Conteúdo. Se você está usando um tipo de projeto diferente e plano para aplicar enriquecimentos, pare aqui. Para obter mais informações, consulte Aplicando enriquecimentos a conteúdo de um banco de dados.
Em seu projeto Discovery, conclua as seguintes etapas:
-
A partir da pane de navegação, escolha Gerenciar coleções.
-
Clique em New collection (Nova coleção ).
-
Clique em Database (Banco de dados) e, em seguida, clique em Next (Avançar ).
-
Nomeia a coleção.
-
Se a linguagem dos documentos no banco de dados não for o inglês, selecione a linguagem apropriada.
Para obter uma lista de idiomas suportados, consulte Suporte ao idioma.
-
Opcional: Alterar o cronograma de sincronização.
Para obter mais informações, consulte Opções de planejamento de Crawl.
-
Preencha os campos a seguir na seção Enter your credentials (Insira suas credenciais ):
- URL do banco de dados
-
O endereço URL do servidor de banco de dados.
A tabela a seguir mostra URLs de banco de dados exemplo:
URLs de banco de dados Banco de dados Sintaxe Exemplo Data virtualization (mesmo cluster) jdbc:db2://{fully-qualified-hostname-of-dv-service}:{jdbc-nonssl-internal-port}/bigsql
jdbc:db2://c-db2u-dv-db2u-engn-svc.myproject.svc.cluster.local:50000/bigsql
Data virtualization (cluster separado) jdbc:db2://{cluster-address }: {jdbc-nonssl-external-port} /bigsql jdbc:db2://api.conn.cp.example.com:30269/bigsql Db2 jdbc:db2://{server}:{port}/{database_name}
jdbc:db2://localhost:50000/sample:sslConnection=true;
Oracle jdbc:oracle:thin:@//{host}:{TCPport}/{service_name}
jdbc:oracle:thin:@localhost:1521/sample
SQL Server jdbc:sqlserver://{serverName}[{instanceName}]:{port}[;property=value]
jdbc:sqlserver://localhost:1433;DatabaseName=sample
PostgreSQL jdbc:postgresql://{host}:{port}/{database}
jdbc:postgresql://localhost/sample
- Usuário
-
O nome de usuário que você obtém do banco de dados selecionado. Você usa esse nome do usuário para executar crawl da origem. O seu nome do usuário é diferente de banco de dados para banco de dados.
- Senha
-
A senha que está associada ao seu nome de usuário. Sua senha difere de um banco de dados para outro.
-
Preencha os campos a seguir na seção Configurações de conexão:
- Tipo de driver JDBC
-
Escolha o banco de dados.
Db2 é selecionado por padrão. Se quiser fazer o rastreamento a partir de um tipo de banco de dados que não esteja listado, selecione OUTRO. Para engatinhar dados que são gerenciados por Data Virtualization em IBM Cloud Pak for Data, mantenha
Db2
selecionado. - JDBC nome da classe do driver
-
O nome da classe do driver JDBC que está associado ao banco de dados que você selecionou. Este campo é autopreenchido, a menos que você selecione OUTROS.
- Classpath do driver JDBC
-
Faça upload de um arquivo de driver JDBC, que pode ter uma extensão de arquivo.jar ou.zip. Alternativamente, você pode reutilizar um arquivo .jar ou .zip que você carregou anteriormente.
-
Preencha os campos a seguir na seção Especifique o que você deseja engatinhar e, em seguida, clique em Adicionar:
- Nome do esquema
- O esquema que você deseja rastrear.
- Nome da tabela
- A tabela dentro de um esquema que você deseja engatinhar.
Clique no ícone de edição para especificar mais configurações de crawl da tabela, incluindo:
- Chave primária
- A chave primária da tabela do banco de dados de destino. Se a chave primária não estiver configurada na tabela do banco de dados de destino, você deverá especificar a chave nesse campo. O crawler do banco de dados JDBC anexa esse valor
da chave primária à URL de cada linha da qual foi efetuado crawl para manter sua exclusividade. Quando a chave primária for uma chave composta, concatene os nomes de chave usando uma vírgula, por exemplo,
key1,key2
. Se não especificado, o projeto será padronizado para os campos de chave primária da tabela. Se a chave primária estiver configurada na tabela do banco de dados de destino, ela será detectada automaticamente. - Filtro de Linha
- Opcional. Especifique a cláusula
SQL WHERE
para designar quais linhas da tabela devem ser rastreadas. Deve-se especificar uma expressão booleana que pode ser a condição de uma cláusulaWHERE
em uma instruçãoSELECT
. Se houver um erro de sintaxe ou nos nomes de colunas, a tabela será excluída do crawl e nenhum documento será indexado. - Coluna com dados para extrair
- Nome da coluna com dados dos quais você deseja efetuar crawl Se você não especificar a coluna, uma coluna com texto ou com um único objeto grande será escolhida para ser submetida a crawl
- Tipo MIME de dados
- Opcional. O tipo MIME será detectado se não for especificado
Os valores especificados no diálogo de configurações de crawl da tabela não são exibidos com os nomes de esquema e de tabelas, mas os valores são aplicados à conexão com o banco de dados.
Os campos Coluna com dados para extrair e Tipo MIME de dados foram incluídos com a liberação 4.6.5.
-
Se você deseja que o crawler extraia texto a partir de imagens em documentos, expanda Mais configurações de processamentoe configure Aplicar reconhecimento de caracteres ópticos (OCR) a
On
.Quando o OCR é ativado e seus documentos contêm imagens, o processamento demora mais. Para obter mais informações, consulte Reconhecimento de caracteres Ópticos.
-
Clique em Finish.
A coleção é criada rapidamente. É preciso mais tempo para que os dados sejam processados conforme ele é adicionado à coleção.
Se você quiser verificar o progresso, acesse a página Atividade. A partir da pane de navegação, clique em Gerenciar coleções e, em seguida, clique para abrir a coleção.
Como usar a Autenticação do Windows no Linux
O driver JDBC da Microsoft não suporta a Autenticação do Windows no Linux. Se você quiser usar a autenticação do Microsoft Windows para acessar o seu SQL Server no Linux, você pode usar um driver JDBC de terceiros chamado jTDS a partir de Sourceforge. Especifique os seguintes valores durante a configuração:
- Banco de dados URL:
jdbc:jtds:sqlserver://<host>:<port>;databaseName=<database>;domain=<domain>;useNTLMv2=true;
- JDBC tipo de driver:
OTHER
- JDBC nome da classe do driver:
net.sourceforge.jtds.jdbc.Driver
Aplicando enriquecimentos ao conteúdo a partir de um banco de dados
Se você usa um banco de dados como sua fonte de dados e deseja aplicar enriquecimentos nos campos aninhados que são indexados a partir do banco de dados, deve-se utilizar um tipo de projeto de Mineração de Conteúdo.
Se o seu objetivo é criar um aplicativo de pesquisa usando um tipo de projeto Retrieval de Documentos, crie um tipo de projeto de Mineração de Conteúdo primeiro. A partir do projeto Mineração de Conteúdo, você pode se conectar ao banco de dados e enriquecer os dados. Em seguida, é possível reutilizar a coleção enriquecida a partir de um projeto Retrieval de Documentos.
Para enriquecer o conteúdo do banco de dados para uso em um projeto Retrieval de Documentos, complete as seguintes etapas:
-
Crie um projeto de mineração de conteúdo.
Para obter mais informações, consulte Criando um projeto.
-
Conecte-se a uma fonte de dados de banco de dados.
Para obter mais informações, consulte Configurando uma fonte de dados: Banco de Dados.
-
Aplicar enriquecimentos.
Para obter mais informações, consulte os tópicos a seguir:
-
Crie um projeto Retrieval de Documentos.
Para obter mais informações, consulte Criando um projeto.
Quando for solicitado que você escolha uma coleção, escolha Reutilizar dados de uma coleção existente. Se necessário, role para ver esta opção.
-
Selecione a coleção que você criou e enriquecer usando o projeto de Mineração de Conteúdo e, em seguida, clique em Concluir.