CSV 파일 분석

분석하려는 데이터를 쉼표로 구분된 값(CSV) 형식의 파일로 추가할 수 있습니다.

콘텐츠 마이닝 프로젝트는 CSV 파일에서 잘 작동합니다. CSV 파일이 수집되면 스프레드시트의 각 행은 컬렉션 인덱스에 별도의 문서로 저장됩니다. 각 열은 문서에서 루트 수준의 필드가 됩니다.

프로젝트에서 사용할 CSV 파일을 만들 때는 다음 지침을 따르세요:

분석하려는 각 레코드를 스프레드시트에 행으로 추가합니다.
각 중요한 데이터 요소에 대한 열을 포함합니다.
열 머리글을 지정합니다.

문서에 추가되는 루트 수준 필드에는 열 헤더 이름이 지정됩니다. 헤더가 없는 경우 column_0 및 column_1와 같은 하드코딩된 이름이 열에 적용됩니다. 열 이름을 지정하여 결과 문서 필드가 의미 있는 이름을 갖도록 합니다.
시간 경과에 따른 추세를 찾으려면 각 레코드에 타임라인에 정보를 표시하는 데 사용할 수 있는 날짜 정보가 있는지 확인하세요.

Discovery는 다음 날짜 형식을 자동으로 인식합니다:
```
yyyy-MM-dd'T'HH:mm:ssZ
yyyy-MM-dd'T'HH:mm:ssXXX
yyyy-MM-dd'T'HH:mm:ss.SSSZ
yyyy-MM-dd'T'HH:mm:ss.SSSX
yyyy-MM-dd
M/d/yy
yyyyMMdd
yyyy/MM/dd
```
다른 형식으로 날짜를 저장하는 경우 지원되는 형식 목록에 해당 형식을 추가할 수 있습니다.

Discovery 사용자 인터페이스에서 컬렉션 관리 페이지를 엽니다. 컬렉션 타일을 클릭합니다. 컬렉션의 필드 관리 페이지에서 날짜 형식 필드에 형식을 추가합니다. Java SimpleDateFormat 클래스에서 지원되는 날짜 형식을 지정합니다.

예를 들어, 기록에 날짜에 연도 값만 저장하는 경우 지원되는 날짜 형식 목록에 yyyy 을 추가합니다. 그런 다음 연도 값이 포함된 필드의 데이터 유형을 Date로 설정하고 컬렉션을 다시 처리할 수 있습니다. 결과적으로 날짜 필드에서 2019 이 발생하면 색인에서 2019-01-01T05:00:00Z 로 저장됩니다.

샘플 CSV 파일

다음 이미지는 콘텐츠 마이닝 애플리케이션으로 분석하기에 적합한 데이터가 포함된 CSV 파일에서 발췌한 것입니다. 이 데이터는 미국 도로교통안전국(NHTSA)에서 발표한 2010년 교통 기록에서 가져온 것입니다. 각 기록에는 자동차 제조사, 모델 및 연도 정보, 교통 사고 날짜, 운전자 진술서의 텍스트 및 기타 유용한 데이터 포인트가 포함됩니다.

열이 있는 CSV 파일에서 발췌한 내용을 표시합니다: 마켓 텍스트, 모델 텍스트, 하트 텍스트, 충돌, 실패 날짜, 화재, 컴퍼스, 도시, 주, 날짜, 날짜, 마일, 컴퍼스 — CSV

샘플 데이터에 대한 자세한 내용은 https://www.nhtsa.gov/data/traffic-records에서 확인할 수 있습니다.