IBM Cloud Docs
分析 CSV 文件

分析 CSV 文件

您可以将要分析的数据添加为逗号分隔值 (CSV) 格式的文件。

内容挖掘项目可以很好地处理 CSV 文件。 输入 CSV 文件时,电子表格中的每一行都会作为单独的文档存储在收藏索引中。 每一列都会成为文档中的根级字段。

创建用于项目的 CSV 文件时,请遵循以下指导原则:

  • 在电子表格中将要分析的每条记录添加为一行。

  • 每个重要数据点都有一栏。

  • 指定列标题。

    添加到文档中的根级字段被赋予列标题名称。 如果不存在标题,则会对列应用硬编码名称,例如 column_0column_1。 指定列名,以确保生成的文档字段具有有意义的名称。

  • 如果要查找随时间变化的趋势,请确保每条记录都有一些日期信息,可以用来在时间轴上绘制信息。

    Discovery 可自动识别以下日期格式:

    yyyy-MM-dd'T'HH:mm:ssZ
    yyyy-MM-dd'T'HH:mm:ssXXX
    yyyy-MM-dd'T'HH:mm:ss.SSSZ
    yyyy-MM-dd'T'HH:mm:ss.SSSX
    yyyy-MM-dd
    M/d/yy
    yyyyMMdd
    yyyy/MM/dd
    

    如果用其他格式存储日期,可以将该格式添加到支持格式列表中。

    从 Discovery 用户界面,打开 Manage collection 页面。 单击您的收藏磁贴。 在管理字段页面,为集合的日期格式字段添加格式。 指定 Java SimpleDateFormat 类支持的日期格式。

    例如,如果您的记录只存储日期的年份值,请将 yyyy 添加到支持的日期格式列表中。 然后,您可以将包含年份值的字段的数据类型设置为 Date 并重新处理您的数据集。 因此,日期字段中出现的 2019 会在索引中存储为 2019-01-01T05:00:00Z

样本 CSV 文件

下图显示的是从 CSV 文件中摘录的数据,非常适合使用内容挖掘应用程序进行分析。 这些数据来自美国国家公路交通安全管理局(NHTSA)公布的 2010 年交通记录。 每条记录都包括汽车品牌、型号和年份信息、交通事故日期、驾驶员陈述的文字以及其他有用的数据点。

显示 csv 文件的摘录,其中包含以下列:MAKETXT、MODELTXT、YEARTXT、CRASH、FAILDATE、FIRE、COMPDESC、CITY、STATE、DATEA、LDATE、MILES、{: caption="CSV" caption-side="bottom"}示例

有关样本数据的更多信息,请参阅 https://www.nhtsa.gov/data/traffic-records