IBM Cloud Docs
컬렉션 만들기

컬렉션 만들기

컬렉션은 프로젝트에서 유용한 정보를 분석, 보강 및 추출할 수 있도록 프로젝트에 추가하는 문서 집합입니다.

다음과 같은 방법으로 프로젝트에 데이터를 추가할 수 있습니다:

  • 제품 사용자 인터페이스를 사용하여 로컬에서 액세스할 수 있는 파일을 업로드합니다. 이 방법은 사용 사례를 시작하고 테스트하는 가장 좋은 방법입니다.

  • 외부 데이터 소스에 저장된 문서의 예약된 크롤링을 설정하세요.

    제품 사용자 인터페이스는 여러 가지 기본 제공 데이터 소스 커넥터 중에서 선택할 수 있습니다. 옵션은 배포 유형에 따라 다릅니다. 자세한 정보는 지원되는 데이터 소스의 내용을 참조하십시오.

  • 기본으로 지원되지 않는 외부 데이터 소스에 연결합니다:

    IBM Cloud
    IBM App Connect 을 사용하여 다른 외부 데이터 소스에 저장된 문서의 예약된 크롤링을 설정하세요.
    IBM Cloud Pak for Data IBM Software Hub
    다른 외부 데이터 소스에 저장된 문서를 크롤링하는 커넥터를 구축하세요.
  • 프로젝트에 데이터를 추가하는 프로세스를 자동화하려면 Discovery API를 사용하여 컬렉션을 만들고 여기에 문서를 업로드하세요.

Discovery 에 문서를 추가하면 원본 문서가 크롤링되고 문서의 정보가 색인에 저장되어 나중에 이를 보강하여 분석하거나 검색할 수 있습니다. 원본 문서의 모든 서식 있는 콘텐츠가 유지되는 것은 아닙니다. 예를 들어.ppt 또는.doc 파일의 이미지는 저장되지 않습니다. 자세한 내용은 데이터 소스 처리 방법을 참조하세요.

IBM Cloud 컬렉션을 만든 후 데이터 미리 보기를 클릭하여 고급 문서 보기에서 데이터를 미리 볼 수 있습니다.

컬렉션에 추가할 항목 선택하기

소스 콘텐츠를 컬렉션으로 분할하는 방법을 결정할 때 고려해야 할 몇 가지 사항이 있습니다.

  • 다양한 데이터 소스에서 콘텐츠 가져오기

    유사한 콘텐츠를 두 가지 이상의 데이터 소스 유형(예: 웹사이트와 Salesforce )에 저장하는 경우, 두 개의 개별 컬렉션으로 하나의 프로젝트를 만들 수 있습니다. 각 컬렉션은 단일 데이터 소스에서 문서를 추가합니다. 두 소스를 하나의 프로젝트에 함께 구축하면 사용자는 두 소스에서 동시에 검색할 수 있습니다.

  • 강화 적용

    컬렉션을 만들면 비슷한 방식으로 보강하려는 문서를 그룹화할 수 있는 좋은 방법입니다. 예를 들어, 문서의 하위 집합에 업계 전문 용어가 포함되어 있어 해당 용어를 인식하는 사전을 추가하려고 할 수 있습니다. 별도의 컬렉션을 만들고 용어 제안 기능을 사용하여 사전을 만드는 속도를 높일 수 있습니다.

  • 별도의 스마트 문서 이해(SDU) 모델 만들기

    스마트 문서 이해 도구를 사용하여 문서의 구조를 기반으로 콘텐츠를 식별할 수 있습니다. 영업 부서에서 하나의 템플릿을 사용하여 만든 PDF 파일 20개와 연구 부서에서 다른 템플릿을 사용하여 만든 PDF 파일 20개가 있는 경우, 각 세트를 자체 컬렉션으로 그룹화합니다. 그런 다음 SDU 도구를 사용하여 각 구조에 대한 모델을 개별적으로 구축하여 고유한 구조를 이해하는 모델을 만들 수 있습니다. 이 도구를 사용하여 소스 문서에 고유한 사용자 정의 필드를 정의할 수도 있습니다.

콜렉션 작성

컬렉션을 만들려면 먼저 프로젝트를 만들어야 합니다. 자세한 정보는 프로젝트 작성을 참조하십시오.

유의해야 할 사항

  • 컬렉션은 하나의 외부 데이터 소스만 지원할 수 있습니다.
  • 컬렉션의 문서는 컬렉션에 지정한 언어인 한 가지 언어로만 제공되어야 합니다.

컬렉션을 만들려면 다음 단계를 완료합니다:

  1. 프로젝트를 열고 컬렉션 관리 페이지로 이동한 다음 새 컬렉션을 클릭합니다.

    • 지능형 문서 처리, 대화형 검색, 문서 검색, 사용자 지정 프로젝트 유형에는 최대 5개의 컬렉션을 포함할 수 있습니다.
    • 콘텐츠 마이닝 프로젝트에는 하나의 컬렉션만 포함할 수 있습니다.
  2. 컬렉션에 데이터를 업로드합니다.

    IBM Cloud 데이터를 업로드하는 대신 다른 데이터 소스에 연결하려면 데이터 소스에 연결해야 하나요? 필드 옆의 링크를 클릭합니다.

    데이터를 업로드하는 대신 다음과 같은 방법을 선택하여 데이터 소스에 연결할 수 있습니다.

컬렉션에 문서를 추가할 때 발생할 수 있는 문제를 해결하는 방법에 대한 자세한 내용은 수집 문제 해결을 참조하세요.

프로그래밍 방식으로 컬렉션을 만드는 방법에 대한 자세한 내용은 API 참조 문서를 참조하세요.

광학 문자 인식

컬렉션을 만들 때 컬렉션에 적용할 수 있는 선택적 기능 중 하나는 광학 문자 인식입니다. 광학 문자 인식(OCR) 기능은 이미지에서 텍스트를 추출합니다. 이 기능은 도표나 그래프에 표시된 정보나 스캔한 PDF와 같은 파일에 포함된 텍스트를 보존하는 데 유용합니다. 시각적 정보를 텍스트로 변환하여 나중에 검색할 수 있습니다.

클라우드 관리형 인스턴스에 새로운 버전의 기술이 도입되었습니다. OCR v2 은 IBM Research에서 스캔한 문서 및 기타 이미지에서 텍스트를 더 잘 추출하기 위해 개발한 것으로 다음과 같은 제한 사항이 있습니다:

  • 잘못된 스캐너 설정, 해상도 부족, 조명 불량(모바일 캡처 등), 초점 손실, 페이지 정렬 불량, 잘못 인쇄된 문서로 인한 저품질 이미지
  • 글꼴이 불규칙하거나 색상, 글꼴 크기, 배경이 다양한 문서

OCR을 활성화할 때 유의해야 할 사항:

  • OCR을 활성화하면 이미지가 포함된 문서를 수집하는 데 걸리는 시간이 늘어납니다.
  • 현재 OCR은 문서와 스캔한 이미지에서 손으로 쓴 텍스트 추출을 지원하지 않습니다.
  • OCR은 선명한 이미지와 노이즈가 있는 이미지를 모두 판독할 수 있습니다. 노이즈가 있는 이미지를 회색조로 변환하고, 이미지를 매끄럽게 하고 기울기를 완화할 수 있습니다. 단, 이미지 품질은 최소 요구 사항인 80DPI (인치당 도트 수)를 충족해야 합니다.
  • OCR은 여러 언어를 인식할 수 있지만 이미지에 있는 텍스트의 언어는 파일이 추가된 컬렉션에 지정된 언어와 동일해야 합니다.

OCR v1 및 OCR v2 이 지원되는 언어에 대한 자세한 내용은 언어 지원을 참조하세요.

OCR을 적용할 수 있는 파일 유형 목록은 지원되는 파일 유형 표를 참조하세요.

큐레이션되지 않은 데이터에 대한 스템밍 활성화

컬렉션을 만들 때 정규화에 레매타이제이션 대신 스템밍을 사용하도록 Discovery 을 구성할 수 있습니다. 이 구성은 컬렉션, 쿼리 또는 둘 다에 맞춤법 오류, 악센트 표시 누락, 문법 오류가 많은 데이터가 포함된 경우에만 가끔 유용합니다.

Discovery 단어를 정규화하여 복수형이나 대체 동사 활용형과 같은 다양한 형태의 단어와 그 형태를 더 빠르게 인식하고 일치시킬 수 있습니다. 기본적으로 Discovery 은 단어의 의미에 따라 단어를 정규화하는 데 레매타이제이션을 사용합니다. 어간은 단어 어간만 사용하여 단어를 정규화합니다.

레멘테이션은 더 정확하지만 선별된 데이터에서 가장 효과적입니다. 데이터가 잘 큐레이션되어 있지 않다면 스템밍이 더 효과적일 수 있습니다. 일반적으로 단어의 철자가 올바른지 여부에 관계없이 동일한 단어 어간이 감지됩니다. 그러나 철자가 틀린 단어를 인식하지 못하거나 그 의미를 잘못 해석할 수 있습니다. 결과적으로 레매타이저는 색인에 철자가 틀린 단어를 나타내는 잘못된 어근을 추가할 수 있습니다. 철자가 틀린 단어의 어간 버전으로 검색하면 철자가 틀린 단어로 검색하는 것보다 더 나은 결과를 얻을 수 있습니다.

다음 표는 일부 단어가 어간화되는 방식과 철자화되는 방식의 예를 보여줍니다.

스템머와 렘마타이저 비교
표면 형식(surface form) 레멘테이션 형식 줄기 양식
실행 중 실행 실행
ran 실행 ran
강사 강사 지시하다
명령어 명령어 지시하다

예시에서 볼 수 있듯이, 레마타이저는 스템머보다 단어의 의미를 더 잘 포착합니다. 실행과 실행은 모두 같은 어근 동사 실행의 다른 형태로 인식됩니다. 그리고 강사라는 두 명사와 교육이라는 두 명사의 의미 차이는 그대로 유지됩니다. 그러나 데이터에 instructor, instructoin 등의 철자가 틀린 경우 어간 (지시)을 통해 생성된 정규화된 형식이 더 나은 일치 항목을 반환합니다.

Discovery 는 데이터를 수집하여 인덱스에 저장할 때와 사용자가 제출한 쿼리를 분석할 때 런타임에 단어를 정규화합니다. 한 작업은 컬렉션 수준에서 발생하고 다른 작업은 프로젝트 수준에서 발생하더라도 두 작업 모두에 동일한 정규화 방법이 사용됩니다. 쿼리가 제출되면 프로젝트 내의 각 컬렉션에 페더레이션되며, 해당 컬렉션의 구성에 따라 쿼리가 정규화됩니다. 스템머를 사용하도록 구성된 컬렉션은 스템머를 사용하여 쿼리를 정규화합니다. 그렇지 않은 컬렉션은 레매타이제이션을 사용하여 쿼리를 정규화합니다.

컬렉션을 생성할 때 레머타이저 대신 스테머를 활성화하려면 추가 처리 옵션을 확장한 다음 인덱싱 시 레머타이징 대신 스테머타이저 사용 전환기를 켜짐 으로 설정합니다.

Discovery 을 사용하도록 구성하는 경우, 일치하는 동안 문자 차이를 허용하도록 컬렉션에서 정보를 추출하는 쿼리를 설계하는 것도 고려하세요. 자세한 내용은 문자열 변형 연산자를 참조하세요.

스템머가 지원되는 언어에 대한 자세한 내용은 언어 지원을 참조하세요.

수집 한도

프로젝트당 만들 수 있는 컬렉션의 수는 프로젝트 유형에 따라 다릅니다.

프로젝트당 컬렉션 한도
프로젝트 유형 프로젝트별 컬렉션
지능형 문서 처리 5
문서 검색 5
계약 문서 검색 5
대화식 검색 5
컨텐츠 마이닝 1
사용자 정의 5

서비스 인스턴스당 만들 수 있는 컬렉션 수는 Discovery 요금제 유형에 따라 다릅니다.

플랜 세부사항
플랜 서비스 인스턴스별 컬렉션
Cloud Pak for Data 300
프리미엄 300
구축 300
플러스(평가판 포함) 40

IBM Cloud Pak for DataIBM Software Hub Discovery 은 인스턴스 및 설치당 최대 300개의 컬렉션을 지원하지만, 이 수는 메모리 등 여러 요인에 따라 달라집니다.

지원되는 파일 형식

Discovery 는 특정 파일 유형을 수집할 수 있습니다. 다른 모든 유형의 파일에 대해서는 경고 메시지가 표시되고 파일이 수집되지 않습니다.

다음 표에는 지원되는 파일 형식과 파일 형식에 따라 달라지는 기능 지원 정보가 나와 있습니다.

파일 유형 텍스트 추출 지원 스마트 문서 이해(SDU) 지원 광학 문자 인식(OCR) 지원
CSV 체크표시 아이콘
DOC, DOCX 체크표시 아이콘 체크표시 아이콘 체크표시 아이콘
GIF 체크표시 아이콘
HTML 체크표시 아이콘
JPG 체크표시 아이콘 체크표시 아이콘 체크표시 아이콘
JSON 체크표시 아이콘
PDF 체크표시 아이콘 체크표시 아이콘 체크표시 아이콘
PNG 체크표시 아이콘 체크표시 아이콘 체크표시 아이콘
PPT, PPTX 체크표시 아이콘 체크표시 아이콘 체크표시 아이콘
TIFF 체크표시 아이콘 체크표시 아이콘 체크표시 아이콘
TXT 체크표시 아이콘
XLS, XLSX 체크표시 아이콘 체크표시 아이콘

  • Adobe Acrobat, Microsoft Office, Apple의 미리보기 등과 같은 PDF 생성 도구를 사용하여 PDF 파일을 생성할 수 있습니다.

PDF를 처리하는 동안 벡터 개체, 벡터화된 텍스트 및 SVG 이미지는 무시됩니다. 또한 Discovery 은 현재 PDF의 투명도 레이어 또는 투명도 그룹이 있는 이미지에서 텍스트 추출을 지원하지 않습니다.

  • PDF에서 지원되는 이미지 파일 형식의 이미지만 렌더링됩니다.
  • 스캔한 이미지의 경우 최적의 OCR을 위해 300dpi 이상을 사용하세요. 광학 문자 인식의 가이드라인에 따라 최소 dpi는 80이어야 합니다
  • 단일 페이지 이미지 파일만 지원됩니다.
  • 압축된 아카이브 파일(ZIP, GZIP, TAR) 내의 파일을 추출합니다. Discovery 은 아카이브 내에서 지원되는 파일 형식을 수집합니다. 다른 모든 파일 유형은 무시합니다. 파일 이름은 UTF-8 로 인코딩해야 합니다. 예를 들어 이름이 일본어가 포함된 파일은 ZIP 파일에 추가하기 전에 이름을 변경해야 합니다.
  • Discovery는 다음과 같은 명령을 사용하여 생성된 경우에만 MacOS zip 파일을 지원합니다. zip -r my-folder.zip my-folder -x "*.DS_Store". 폴더를 마우스 오른쪽 버튼으로 클릭하고 압축을 클릭하여 만든 ZIP 파일은 지원되지 않습니다.
  • 아카이브 파일의 일부로 업로드한 PDF 파일은 개선 및 사용자 지정 페이지에서 여는 쿼리 결과의 고급 보기에 표시되지 않습니다. 고급 보기에서 파일을 볼 수 있게 하려면 PDF 파일을 아카이브 파일과 별도로 다시 가져오세요.

계약서용 문서 검색 프로젝트 유형에 파일을 추가하면 SDU 및 OCR을 지원하는 모든 파일 유형이 사전 학습된 스마트 문서 이해 모델과 광학 문자 인식으로 자동으로 처리됩니다.

문서 제한

서비스 인스턴스당 허용되는 문서 수는 Discovery 요금제 유형에 따라 다릅니다.

문서 제한은 색인에 있는 문서 수에 적용됩니다. 적용하려는 강화 기능으로 인해 나중에 문서 수가 늘어날 수 있는 경우 처음에는 더 적은 수의 문서를 업로드하세요. 예를 들어, 다음 구성은 더 많은 문서를 생성합니다:

  • 문서를 분할하면 문서가 여러 개의 문서로 분할됩니다
  • 업로드하는 CSV 파일은 한 줄당 하나의 문서를 생성합니다
  • 크롤링하는 데이터베이스 데이터 소스는 데이터베이스 행당 하나의 문서를 생성합니다
  • JSON 파일의 배열에 정의된 각 개체는 별도의 문서로 생성됩니다
서비스 인스턴스당 문서 수
플랜 서비스 인스턴스별 문서
Cloud Pak for Data 무제한
프리미엄 무제한
구축 무제한
플러스(평가판 포함) 500,000

Enterprise 요금제의 경우 한 달에 100,000개의 문서가 생성된 후 요금이 청구됩니다. 요금제에 대한 자세한 내용은 Discovery 요금제를 참조하세요.

허용되는 최대 개수는 문서의 크기에 따라 약간씩 다를 수 있습니다. 이 값을 일반적인 가이드라인으로 사용하세요.

파일 크기 제한

크롤링된 문서

커넥터를 사용하여 크롤링할 수 있는 각 파일의 최대 크기는 배포 유형에 따라 다릅니다.

IBM Cloud 다음에서 관리되는 배포 IBM Cloud

  • 프리미엄 요금제만 해당됩니다:

    • Box: 50MB
    • IBM Cloud 개체 저장소: 50MB
    • Salesforce Files 객체입니다: 50MB
    • 기타 모든 데이터 소스: 10MB
  • 다른 모든 요금제: 10MB

IBM Cloud Pak for DataIBM Software Hub 다음에 설치된 배포 IBM Cloud Pak for Data

  • 모든 데이터 소스: 32MB

업로드한 문서

업로드할 수 있는 각 파일의 크기는 Discovery 요금제 유형에 따라 다릅니다. 자세한 내용은 다음 최대 문서 크기 표를 참조하세요.

최대 문서 크기
플랜 문서당 파일 크기
Cloud Pak for Data 50MB
프리미엄 50MB
구축 10MB
플러스(평가판 포함) 10MB

필드 제한

문서가 컬렉션에 추가되면 문서의 콘텐츠가 평가되어 내부 인덱스의 해당 필드에 추가됩니다.

업로드된 CSV 또는 JSON 파일이나 크롤링된 데이터베이스의 데이터와 같은 구조화된 데이터의 경우 각 열 또는 개체는 루트 수준 필드로 저장됩니다. 예를 들어 컬렉션에 CSV 파일을 추가하면 CSV 파일의 각 열이 인덱스에 별도의 필드로 저장됩니다.

인덱스에 최대 1,000개의 필드를 추가할 수 있습니다.

필드의 데이터 유형(예: 날짜 또는 문자열)은 지정할 수 없습니다. 데이터 유형은 문서 수집 중에 자동으로 감지되어 필드에 할당됩니다. 할당은 인덱싱되는 첫 번째 문서에서 감지된 데이터 유형을 기반으로 합니다. 동일한 필드의 값에 대해 다른 데이터 유형이 감지되면 후속 문서에서 수집 오류가 발생할 수 있습니다. 따라서 문서에 단일 필드에 여러 데이터 유형이 혼합되어 있는 경우 먼저 필드에 문자열과 같이 가장 유연한 데이터 유형의 값이 있는 문서를 수집하세요.

웹사이트를 크롤링하거나 HTML 파일을 업로드하면 HTML 콘텐츠가 컬렉션에 추가되고 html 필드에 색인이 생성됩니다.

다음 표에는 문서당 필드의 최대 크기 제한이 나와 있습니다.

최대 필드 크기
필드 유형 문서당 허용되는 최대 크기
html 필드 5MB
다른 모든 필드의 합계 1MB

문서의 필드 최대 크기가 허용된 한도를 초과하는 경우 다음과 같이 처리됩니다:

  • 크기가 큰 html 필드가 있는 문서의 경우 html 필드를 제외한 문서의 모든 필드가 색인됩니다.

    IBM Cloud Pak for Data 버전 4.0 이하에서는 전체 문서가 색인화되지 않습니다.

  • 크기가 큰 비 HTML 필드가 있는 문서의 경우 문서가 색인되지 않습니다.

Microsoft Excel 파일을 업로드할 때 HTML이 아닌 필드 크기 제한을 초과했다는 메시지가 표시되는 경우 XLS 파일을 CSV 파일로 변환하는 것이 좋습니다. 쉼표로 구분된 값(CSV) 파일을 업로드하면 각 행이 별도의 문서로 색인됩니다. 결과적으로 필드 크기 제한이 초과되지 않습니다.

업로드된 파일의 필드가 처리되는 방식에 대한 자세한 내용은 필드 처리 방식을 참조하세요.

지원되는 데이터 소스

다음 표는 각 배치 유형에 대해 지원되는 데이터 소스를 표시합니다.

지원되는 데이터 소스
이 테이블에는 행 및 열 머리글이 있습니다. 행 헤더는 지원되는 데이터 소스를 식별합니다. 열 헤더는 다른 제품 배치 유형 옵션을 식별합니다. 배치 유형에 사용 가능한 데이터 소스를 이해하려면 데이터 소스를 설명하는 행으로 이동하여 원하는 배치 유형의 열을 찾으십시오.
데이터 소스 IBM Cloud IBM Cloud Pak for Data
박스 체크표시 아이콘 체크표시 아이콘
데이터베이스 (IBM Data Virtualization, IBM Db2, Microsoft SQL, Oracle, Postgres) 체크표시 아이콘
FileNet P8 체크표시 아이콘
HCL Notes 체크표시 아이콘
IBM Cloud Object Storage 체크표시 아이콘
로컬 파일 시스템 체크표시 아이콘
Salesforce 체크표시 아이콘 체크표시 아이콘
Microsoft SharePoint Online 체크표시 아이콘 체크표시 아이콘
Microsoft SharePoint 온프레미스 체크표시 아이콘 체크표시 아이콘
웹 사이트 체크표시 아이콘 체크표시 아이콘
Microsoft Windows 파일 시스템 체크표시 아이콘

크롤링 스케줄 옵션

콜렉션을 작성하면 초기 크롤링이 즉시 시작됩니다. 크롤링 일정에 대해 선택한 빈도에 따라 다음 크롤링이 시작되는 시기가 결정됩니다.

크롤링 일정을 만들려면 다음 단계를 완료하세요:

  1. 크롤링 일정 섹션에서 빈도를 선택합니다.

    크롤러가 특정 요일과 시간에 실행되도록 예약할 수 있습니다. 이 옵션은 업무 시간 동안 대상 시스템에 과부하가 걸리지 않도록 하려는 경우에 유용합니다. 1~9 범위에서 시간을 지정하는 경우 시간 숫자 앞에 0을 추가합니다. 예를 들어 토요일에 01:00 AM 로 크롤링을 예약할 수 있습니다.

    IBM Cloud 매월 크롤링을 실행하도록 예약하는 경우 28일이 있는 2월을 포함하여 매월 발생하는 날짜를 지정해야 하므로 날짜 번호 옵션은 1~28로 제한됩니다.

    IBM Cloud Pak for Data 설치형 배포에는 더 많은 일정 옵션이 있습니다:

    • 12시간마다 또는 10일마다 크롤링하려면 사용자 지정 간격을 선택합니다. 크롤러가 사용자 지정 일수 또는 시간에 실행되도록 예약할 수 있습니다.
    • 기본적으로 크롤링은 사용량이 적은 시간에 시작하도록 예약되어 있습니다.
    • 크롤링이 완료되는 데 걸리는 시간보다 짧은 주기로 간격을 설정하지 마세요.
    • 여러 크롤러가 짧은 간격으로 실행되도록 구성하지 마세요.
    • 컬렉션을 만든 시간대가 아닌 다른 시간대에서 컬렉션을 열면 UTC(협정 세계시) 오프셋 정보가 표시됩니다.
  2. IBM Cloud Pak for DataIBM Software Hub 설치된 배포에는 데이터 원본을 크롤링하는 데 사용할 일정 유형을 선택할 수 있는 추가 일정 설정 섹션이 있습니다.

    모든 커넥터( 웹 크롤링 커넥터 제외)에 대한 선택 사항은 다음과 같습니다:

    • 전체 크롤링: 외부 데이터 소스를 다시 크롤링하여 컬렉션의 문서를 업데이트합니다.
    • 크롤링 업데이트(새 콘텐츠, 수정된 콘텐츠, 삭제된 콘텐츠 찾기): 마지막 크롤링 이후 외부 데이터 소스의 데이터가 추가, 수정 또는 삭제된 경우에만 컬렉션을 업데이트합니다.
    • 새 콘텐츠 및 수정된 콘텐츠 크롤링: 마지막 크롤링 이후 외부 데이터 소스의 데이터가 추가되거나 수정된 경우에만 컬렉션을 업데이트합니다.

    웹 크롤링 커넥터 전용: 웹 크롤링 커넥터는 다른 커넥터 유형과 다르게 크롤링을 예약합니다. 웹 크롤링 커넥터의 경우에만 다음 옵션 중에서 선택합니다:

    • 크롤링 빈도를 직접 제어하려면 이 옵션을 선택합니다:

      전체 크롤링

      전체 크롤링 일정 유형을 선택하면 페이지의 크롤링 일정 섹션에서 지정한 빈도로 크롤링이 수행됩니다.

    • 시스템에서 크롤링 빈도를 관리하도록 하려면 다음 옵션 중 하나를 선택합니다:

      업데이트 크롤링(새 콘텐츠, 수정된 콘텐츠, 삭제된 콘텐츠 찾기) 또는 새 콘텐츠 및 수정된 콘텐츠 크롤링하기

      업데이트 또는 새 콘텐츠와 수정된 콘텐츠를 크롤링하는 일정 유형을 선택하면 크롤링 일정에 지정한 빈도는 무시됩니다. 각 문서가 크롤링되는 빈도는 가변적이며 전적으로 서비스에서 관리합니다. 그리고 문서에서 변경 사항이 얼마나 자주 발견되는지에 따라 빈도가 달라집니다. 예를 들어 컬렉션의 10개 문서 중 5개가 첫 번째 크롤링 간격이 끝날 때까지 변경된 경우 해당 5개 문서에 대한 빈도가 자동으로 증가합니다. 현재 이러한 자체 관리 새로 고침이 실행될 수 있는 가장 높은 빈도는 매일입니다.

      이러한 유형의 예약 크롤링이 구성된 경우 자동화된 빈도 관리를 중단할 수 없으며 일회성 크롤링을 트리거할 수 없습니다.

나중에 유연한 크롤링 일정 설정을 변경하려면 처리 설정 페이지로 이동하여 설정을 편집한 다음 변경 사항 적용 및 재처리를 클릭하면 됩니다.

IBM Cloud 다음 예약된 크롤링이 활동 페이지에 표시됩니다.

일정 빈도를 변경하면 다음 예정된 크롤링 시간이 예상과 다를 수 있습니다. 크롤링은 기본적으로 특정 시간 또는 요일에 정기적으로 수행되도록 설정되어 있습니다. 예를 들어 8월 11일에 크롤링 일정을 주간에서 월간으로 변경하면 다음 크롤링은 9월 11일이 아닌 8월 31일로 예약될 수 있습니다. 변경한 날로부터 정확히 한 달 동안은 예정되어 있지 않습니다. 대신 선택한 크롤링 빈도에 대한 기본 실행 날짜로 지정된 날짜에 실행되도록 예약됩니다.

크롤링 중지

크롤링 일정 빈도를 변경하지 않고 크롤링을 중지할 수 있습니다. 이 작업은 시간이 많이 걸리는 작업을 수행하면서 크롤링이 작업 중간에 시작되거나 실행되지 않도록 하려는 경우에 유용합니다.

IBM Cloud 크롤링을 중지하려면 다음 단계를 완료하세요:

  1. 탐색 패널에서 컬렉션 관리 페이지를 엽니다.

  2. 크롤링을 중지할 컬렉션을 선택합니다.

  3. 활동 페이지에서 크롤링이 진행 중인 경우 중지를 클릭합니다.

  4. 처리 설정 페이지로 이동합니다.

  5. 일정 적용을 아니요로 설정한 다음 변경 사항 적용 및 재처리를 클릭합니다.

    크롤링이 중지되며 다시 시작할 때까지 다시 시작되지 않습니다.

IBM Cloud 크롤링을 다시 시작하려면 다음 단계를 완료합니다:

  1. 탐색 패널에서 컬렉션 관리 페이지를 엽니다.

  2. 크롤링을 다시 시작하려는 컬렉션을 선택합니다.

  3. 처리 설정 페이지로 이동합니다.

  4. 일정 적용을 예로 설정한 다음 변경 사항 적용 및 재처리를 클릭합니다.

    크롤링이 즉시 시작됩니다.

    다음 크롤링은 크롤링 일정 옵션에서 선택한 빈도에 따라 시작됩니다. 예약된 빈도 전에 언제든지 크롤링을 시작하려면 활동 페이지에서 다시 크롤링을 클릭합니다.

IBM Cloud Pak for Data IBM Software Hub

진행 중인 크롤링을 일시적으로 중지할 수 있습니다.

크롤링을 일시적으로 중지하려면 다음 단계를 완료하세요:

  1. 탐색 패널에서 컬렉션 관리 페이지를 엽니다.

  2. 크롤링을 일시적으로 중지할 컬렉션을 선택합니다.

  3. 활동 페이지에서 중지를 클릭합니다.

    크롤링 일정에 지정된 빈도에 따라 크롤링이 다시 시작됩니다.