分析 CSV 文件
您可以将要分析的数据添加为逗号分隔值 (CSV) 格式的文件。
内容挖掘项目可以很好地处理 CSV 文件。 输入 CSV 文件时,电子表格中的每一行都会作为单独的文档存储在收藏索引中。 每一列都会成为文档中的根级字段。
创建用于项目的 CSV 文件时,请遵循以下指导原则:
-
在电子表格中将要分析的每条记录添加为一行。
-
每个重要数据点都有一栏。
-
指定列标题。
添加到文档中的根级字段被赋予列标题名称。 如果不存在标题,则会对列应用硬编码名称,例如 column_0 和 column_1。 指定列名,以确保生成的文档字段具有有意义的名称。
-
如果要查找随时间变化的趋势,请确保每条记录都有一些日期信息,可以用来在时间轴上绘制信息。
Discovery 可自动识别以下日期格式:
yyyy-MM-dd'T'HH:mm:ssZ yyyy-MM-dd'T'HH:mm:ssXXX yyyy-MM-dd'T'HH:mm:ss.SSSZ yyyy-MM-dd'T'HH:mm:ss.SSSX yyyy-MM-dd M/d/yy yyyyMMdd yyyy/MM/dd
如果用其他格式存储日期,可以将该格式添加到支持格式列表中。
从 Discovery 用户界面,打开 Manage collection 页面。 单击您的收藏磁贴。 在管理字段页面,为集合的日期格式字段添加格式。 指定 Java SimpleDateFormat 类支持的日期格式。
例如,如果您的记录只存储日期的年份值,请将
yyyy
添加到支持的日期格式列表中。 然后,您可以将包含年份值的字段的数据类型设置为 Date 并重新处理您的数据集。 因此,日期字段中出现的2019
会在索引中存储为2019-01-01T05:00:00Z
。
样本 CSV 文件
下图显示的是从 CSV 文件中摘录的数据,非常适合使用内容挖掘应用程序进行分析。 这些数据来自美国国家公路交通安全管理局(NHTSA)公布的 2010 年交通记录。 每条记录都包括汽车品牌、型号和年份信息、交通事故日期、驾驶员陈述的文字以及其他有用的数据点。
{: caption="CSV" caption-side="bottom"}示例
有关样本数据的更多信息,请参阅 https://www.nhtsa.gov/data/traffic-records。