Análise de arquivos CSV

Você pode adicionar os dados que deseja analisar como um arquivo formatado com valores separados por vírgula (CSV).

O projeto de mineração de conteúdo funciona bem com arquivos CSV. Quando o arquivo CSV é ingerido, cada linha da planilha é armazenada como um documento separado no índice da coleção. Cada coluna se torna um campo de nível raiz no documento.

Siga estas diretrizes ao criar um arquivo CSV para uso no projeto:

Adicione cada registro que deseja analisar como uma linha na planilha.
Inclua uma coluna para cada ponto de dados significativo.
Especifique os cabeçalhos das colunas.

O campo de nível raiz que é adicionado ao documento recebe o nome do cabeçalho da coluna. Se não houver cabeçalho, nomes codificados, como column_0 e column_1, serão aplicados às colunas. Especifique os nomes das colunas para garantir que os campos do documento resultante tenham nomes significativos.
Se quiser encontrar tendências ao longo do tempo, certifique-se de que cada registro tenha alguma informação de data que possa ser usada para traçar as informações em uma linha do tempo.

Discovery reconhece automaticamente os seguintes formatos de data:
```
yyyy-MM-dd'T'HH:mm:ssZ
yyyy-MM-dd'T'HH:mm:ssXXX
yyyy-MM-dd'T'HH:mm:ss.SSSZ
yyyy-MM-dd'T'HH:mm:ss.SSSX
yyyy-MM-dd
M/d/yy
yyyyMMdd
yyyy/MM/dd
```
Se você armazena datas em outros formatos, pode adicionar o formato à lista de formatos compatíveis.

Na interface do usuário Discovery, abra a página Manage collection. Clique no bloco de sua coleção. Na página Gerenciar campos da coleção, adicione um formato ao campo Formatos de data. Especifique um formato de data que seja compatível com a classe Java SimpleDateFormat.

Por exemplo, se os seus registros armazenarem apenas valores de ano para datas, adicione yyyy à lista de formatos de data compatíveis. Em seguida, você pode definir o tipo de dados do campo que contém um valor de ano como Date e reprocessar sua coleção. Como resultado, uma ocorrência de 2019 no campo de data é armazenada como 2019-01-01T05:00:00Z no índice.

Arquivo CSV de amostra

A imagem a seguir mostra um trecho de um arquivo CSV com dados que são adequados para análise com o aplicativo Content Mining. Os dados são provenientes de registros de tráfego de 2010 publicados pela National Highway Traffic Safety Administration (NHTSA). Cada registro inclui informações de marca, modelo e ano do carro, a data do incidente de trânsito e o texto da declaração do motorista, além de outros pontos de dados úteis.

Mostra um trecho de um arquivo csv com as colunas: MAKETXT, MODELTXT, YEARTXT, CRASH, FAILDATE, FIRE, COMPDESC, CITY, STATE, DATEA, LDATE, MILES, — de arquivo

Para obter mais informações sobre os dados de amostra, consulte https://www.nhtsa.gov/data/traffic-records.