웹 크롤링

웹 크롤링 콜렉션을 추가하여 웹 사이트를 크롤링하고 해당 페이지 컨텐츠를 분석하며 의미 있는 정보를 저장합니다. 하나 이상의 기본 웹 페이지 URL을 지정하고 웹 크롤링이 수행할 링크된 페이지 수를 구성하십시오. 웹 사이트와 동기화하는 빈도를 구성할 수 있으므로 콜렉션의 데이터가 최신 상태인지 여부를 제어할 수 있습니다.

웹 크롤링 컬렉션을 만들기 전에 웹사이트 소유자에게 문의하여 웹사이트 크롤링에 대한 권한을 얻으세요. 현재 Discovery의 관리형 배포는 https://www.ibm.com 크롤링이 불가능합니다.

IBM Cloud IBM Cloud 만

이 정보는 관리 배치에만 적용됩니다. 설치된 배치에서 웹 사이트에 연결하는 방법에 대한 자세한 정보는 웹 크롤링 을 참조하십시오.

크롤링되는 문서

다음 유형의 웹 컨텐츠에 연결할 수 있습니다.

공용 웹 사이트
개인용 회사 웹 사이트 또는 인증이 필요한 기타 사이트
회사 방화벽 뒤에 있는 웹 사이트

컨텐츠의 초기 크롤링 중에 검색 설정과 일치하는 모든 웹 사이트 페이지가 크롤링되어 콜렉션의 문서 인덱스에 추가됩니다. 크롤링은 시작 URL 필드에 지정한 웹 페이지에서 시작됩니다. 콜렉션이 링크를 따르도록 구성된 경우 크롤링은 시작 페이지와 동일한 서브트리를 공유하는 시작 페이지의 링크를 따릅니다. 예를 들어, https://www.example.com/banking/faqs.html 를 지정하면 https://www.example.com/banking/ 로 시작하는 URL이 있는 링크가 크롤링됩니다. https://www.example.com/banking 를 지정하면 https://www.example.com/ 로 시작하는 URL이 있는 링크가 크롤링됩니다.

크롤링이 보안 서브디렉토리에 액세스할 수 없습니다. 예를 들어, 크롤링이 접근해야 하는 하위 디렉토리( https://www.example.com/banking/pdfs )가 크롤링되지 않는 경우, 웹 브라우저에서 직접 URL 하위 디렉토리에 접근할 수 있는지 확인하십시오. 액세스할 수 없으면 크롤링에서 액세스할 수 없습니다.

스케줄된 후속 리크롤링 중에 전체 리크롤링이 수행되고 변경사항이 콜렉션에 반영됩니다. 외부 웹 사이트에서 나중에 삭제되는 웹 사이트 페이지에서 콜렉션에 추가된 문서는 콜렉션에서 삭제되지 않습니다. 그러나 2022년 4월 이후에 생성된 컬렉션부터 시작하면, 웹 크롤링 구성에서 시작 URL 를 제거하면, 관련된 모든 문서가 삭제됩니다. 삭제된 문서에는 시작 URL 의 웹페이지 내용을 바탕으로 컬렉션에 추가된 색인된 문서와 시작 URL 이 링크한 웹페이지에서 파생된 문서가 포함됩니다. 기존의 URL 를 변경하여 이전보다 더 제한된 범위의 경로를 포함하도록 하거나 팔로우할 수 있는 최대 링크 수를 0으로 줄이는 등 다른 설정을 변경하여 색인된 문서의 수를 제한할 수 없습니다. URL 를 삭제해야만, 그와 관련된 색인된 문서를 제거할 수 있습니다.

웹 크롤러는 JavaScript 를 사용하여 컨텐츠를 렌더링하는 웹 페이지를 크롤링할 수 있지만 크롤러는 전체 웹 사이트가 아닌 개별 페이지에서 가장 잘 작동합니다. 동적 URL을 사용하는 사이트를 크롤링할 수 없습니다. 브라우저에서 웹 페이지의 소스 코드를 볼 때 컨텐츠를 볼 수 없는 경우 서비스가 이를 크롤링할 수 없습니다.

인증이 필요한 웹사이트와 그렇지 않은 웹사이트가 포함된 URL 그룹을 크롤링하려면 각 인증 유형에 대해 서로 다른 컬렉션을 만드는 것이 좋습니다. 커넥터가 쿠키 기반 크롤링을 지원하지 않습니다.

모든 Discovery 데이터 소스 커넥터는 읽기 전용입니다. 크롤링 계정에 부여된 권한에 관계없이 Discovery 는 원래 데이터 소스의 컨텐츠를 쓰거나 업데이트하거나 삭제하지 않습니다.

다음 표는 Discovery 가 크롤링할 수 있는 오브젝트를 보여줍니다.

데이터 원본 크롤링 지원
크롤링되는 오브젝트
웹 사이트, 웹 사이트 서브디렉토리

방화벽 뒤에서 호스팅되는 웹사이트에 연결하기 위한 전제 단계

방화벽 뒤에 호스팅되는 웹사이트에 연결하려면 먼저 IBM Cloud Satellite® 커넥터를 Discovery 외부에서 구성하세요. 자세한 내용은 Satellite 커넥터 개요를 참조하세요.

IBM® Secure Gateway for IBM Cloud® 가 더 이상 사용되지 않습니다. Secure Gateway를 사용하는 기존 컬렉션은 지원 종료일 전에 IBM Cloud Satellite® 커넥터로 마이그레이션할 수 있습니다. 자세한 내용은 Secure Gateway 사용 중단 날짜 및 사용 중단 세부 정보에서 참조하세요.

중요한 컨텐츠는 종종 회사의 내부 웹 사이트에 저장됩니다. 일반적으로 이러한 인트라넷 웹 사이트는 사무실 네트워크에 연결된 컴퓨터에서만 또는 VPN 연결을 통해 액세스할 수 있습니다. 웹 크롤러와 이러한 유형의 내부 사이트 간에 Satellite 커넥터를 사용하여 지속적이고 보다 안전한 연결을 설정할 수 있습니다.

Satellite 커넥터를 구성하려면 다음 단계를 완료합니다:

Satellite 커넥터를 만듭니다. 자세한 내용은 커넥터 만들기를 참조하세요.
커넥터 에이전트를 실행합니다. 자세한 내용은 커넥터 에이전트 실행하기를 참조하세요.
커넥터 엔드포인트를 만들고 관리합니다. 자세한 내용은 커넥터 엔드포인트 만들기 및 관리하기를 참조하세요.

제한사항

Satellite 커넥터를 사용할 때 제한되는 사항은 다음과 같습니다:

새 웹 크롤링 컬렉션을 만들 때만 Satellite 커넥터를 구성할 수 있습니다(컬렉션을 만든 후에는 수정할 수 없음).
온프레미스 네트워크에 연결의 추가 연결 설정에서 On 로 설정한 경우 모든 시드 URL이 동일한 도메인에 있어야 합니다.
URL 의 씨앗이 SSL( https:// )을 사용하는 경우, 기본 인증과 절대 URL을 사용할 수 있습니다.
URL 의 씨앗이 HTTP ( http:// )를 사용하는 경우, 다음과 같은 제한 사항이 적용됩니다
- Satellite 사용할 때는 기본 인증을 사용할 수 없습니다 커넥터를 사용할 수 없습니다.
- 크롤링된 웹페이지에 절대 URL (예: http://<seed_url_domain>/sample.html )가 있는 경우, 링크된 페이지는 크롤링되지 않습니다.

데이터 소스에 연결

웹 크롤링 콜렉션을 구성하려면 다음 단계를 완료하십시오.

탐색 분할창에서 콜렉션 관리를 선택하십시오.
새 컬렉션을 클릭합니다.
데이터 소스에 연결해야 함옆에 있는 링크를 클릭하십시오. 필드에서 웹 크롤링을 클릭한 후 다음을 클릭하십시오.
콜렉션의 이름을 지정하십시오.
웹 사이트의 컨텐츠 언어가 영어가 아닌 경우 적절한 언어를 선택하십시오.

지원되는 언어 목록은 언어 지원을 참조하십시오.
선택사항: 동기화 스케줄을 변경할 수 있습니다.

자세한 정보는 크롤링 스케줄 옵션 을 참조하십시오.
크롤링하려는 웹사이트의 도메인 네임( URL )을 지정하세요.
- 크롤링하려는 사이트에 로그인이 필요한 경우, 기본 인증을 On 로 설정하고, 페이지의 URL 를 시작 URL 필드 에 추가한 다음, 추가를 클릭합니다.
  
  사이트에 대한 액세스 권한이 있는 사용자 이름 및 비밀번호를 추가한 후 신임 정보 저장을 클릭하십시오. 콜렉션당 하나의 신임 세트만 지정할 수 있습니다.
  
  예를 들어, 시작 URL 로 https://cloud.ibm.com 를 지정하고 자격 증명으로 IBMid 를 추가할 수 있습니다.
  
  사이트의 특정 섹션에서 크롤링을 시작하려면 시작 URL 필드에 이를 지정하십시오. 하위 섹션의 도메인 이름은 앞서 지정한 URL 의 도메인과 일치해야 합니다.
  
  예를 들어, 시작 URL 를 https://cloud.ibm.com/unifiedsupport/supportcenter 로 변경할 수 있습니다.
- 크롤링하려는 공개 웹페이지의 경우, 웹사이트의 루트 페이지에 대한 URL 를 시작 URL 필드 에 추가한 다음, 추가 버튼을 클릭합니다. 시작 페이지를 두 개 이상 추가할 수 있습니다.
  
  URL 의 마지막 슬래시( / )는 크롤링할 하위 트리를 결정합니다. https://www.example.com/banking/faqs.html 를 지정하면 예를 들어, https://www.example.com/banking/ 로 시작하는 모든 URL이 크롤링됩니다. https://www.example.com/banking 를 지정하면 https://www.example.com/ 로 시작하는 모든 URL이 크롤링됩니다.
  
  기본적으로, 크롤링이 시작 URL 에서 연속적으로 따라가는 링크의 수는 2 입니다. 홉 수를 변경하거나 크롤링에서 제외할 웹 사이트 섹션을 나열하려면 편집 아이콘을 클릭하십시오.
  - 허용되는 최대 홉 수는 20 입니다.
  - 제외할 URL 경로를 지정하려면 사이트 경로를 추가하십시오. 예를 들어, 시작 URL 가 https://example.com 인 경우, /pricing/ 를 입력하여 https://example.com/pricing 를 제외할 수 있습니다.
    
    사용자가 지정하는 사이트 경로를 포함하는 웹 주소의 모든 섹션이 제외됩니다. 예를 들어, /licenses/ 를 지정하면 다른 페이지 중에서 https://example.com/products/licenses/europe 페이지가 제외됩니다.
  - 크롤링을 한 페이지로 제한하려면 시작 URL 필드 에 " URL "를 추가하십시오. 예를 들어, https://www.example.com/banking/faqs.html입니다. 편집 아이콘을 클릭하여 수행할 최대 링크 수 를 0 로 설정하십시오.
  크롤링 설정의 크롤링 전환 중 JavaScript 실행으로 제어되는 동적 웹사이트 웹 크롤링 기능은 더 이상 사용되지 않으며 2025년 9월에 제거될 예정입니다. 자세한 내용은 릴리스 노트를 참조하세요.
- 크롤링할 웹 사이트가 JavaScript 를 사용하여 페이지 컨텐츠가 표시되기 전에 사용자 정의하는 경우에는 추가 단계를 수행해야 합니다.
  
  시작 URL 에 들어가서 추가를 클릭한 다음, 클릭하여 URL 를 편집합니다. 크롤링 전환기에서 실행 JavaScript 를 켜짐으로 설 정한 다음 저장을 클릭합니다.
  
  JavaScript 처리를 사용하는 경우 페이지를 크롤링하는 데 3-4배더 오래 걸립니다. 페이지가 해당 컨텐츠를 동적으로 렌더링하기 때문에 필요하다는 것을 알고 있는 개별 웹 페이지에서만 사용하십시오. 콜렉션에 컨텐츠를 추가하지 않고 제한시간 초과 메시지가 표시되거나 크롤링이 종료되는 경우에는 크롤링에 포함되는 웹 페이지 수를 줄이십시오. 예를 들어, 시작 URL 필드에서 크롤링할 정확한 페이지를 지정하고 수행할 최대 링크 수 를 0으로 설정할 수 있습니다.
- 방화벽 뒤에서 호스팅되는 웹사이트에 연결하려면 먼저 IBM Cloud Satellite 커넥터를 설정합니다.
  
  Satellite 커넥터 세부 정보를 지정합니다.
  
  세부 정보를 지정하려면 다음 단계를 완료하세요:
  1. 추가 연결 설정을 펼치고 온프레미스 네트워크에 연결 을 On 로 설정하십시오.
  2. 연결 유형으로 IBM Cloud Satellite® 커넥터를 선택합니다. 기본적으로 이 옵션은 선택되어 있습니다.
  3. Satellite 커넥터 엔드포인트 URL 를 지정합니다.
  Satellite
선택사항: 시작 URL 필드에 다른 웹 주소를 추가하십시오.

단일 콜렉션의 시작 URL수는 100미만이어야 합니다. 많은 수의 웹 사이트를 크롤링해야 하는 경우에는 많은 사이트를 크롤링해야 합니다. 내 한계는 무엇입니까?.

크롤링되는 웹 페이지 수는 250 ,000으로 제한되므로 웹 크롤러가 지정된 모든 웹 사이트를 크롤링하지 않을 수 있습니다.

URL 당 크롤링되는 하위 URL의 수는 10,000개로 제한됩니다. 크롤링된 URL 내의 하위 URL 수가 10,000개를 초과하면 크롤러는 하위 URL의 컨텐츠를 처리할 수 없습니다.
콜렉션에 추가할 파일 유형을 제한하려는 경우 포함 또는 제외할 파일 유형의 파일 확장자를 나열할 수 있습니다.

웹 사이트 페이지의 URL이 .html로 끝나지 않으면 포함 필터 대신 제외 필터를 사용하십시오. 제외할 파일 확장자를 하나 이상 추가해야 합니다.

지원되는 파일 유형 목록은 지원되는 파일 유형 을 참조하십시오.
웹 크롤링이 사이트의 이미지에서 텍스트를 추출하도록 하려면 추가 처리 설정을 펼치고 OCR (Optical Character Recognition) 적용 을 On 로 설정하십시오.

OCR이 사용 가능하고 문서에 이미지가 포함되어 있으면 처리 시간이 더 오래 걸립니다. 자세한 정보는 OCR(Optical Character Recognition) 을 참조하십시오.
** 완료**를 누르십시오.

콜렉션이 빠르게 작성됩니다. 콜렉션에 추가될 때 데이터를 처리하는 데 더 많은 시간이 소요됩니다.

진행상태를 확인하려면 활동 페이지로 이동하십시오. 탐색 분할창에서 콜렉션 관리를 클릭한 후 클릭하여 콜렉션을 여십시오.

나는 많은 사이트를 검색해야 합니다. 내 한계는 무엇입니까?

서비스는 Discovery 서비스 인스턴스당 총 500개의 크롤러 연결을 지원할 수 있습니다. 웹 크롤링을 제외한 모든 데이터 소스는 각각 하나의 크롤러 연결을 사용합니다. 웹 크롤링의 경우, 5개의 시작 URL마다 하나의 연결이 필요합니다. 예를 들어, 10개의 시작 URL을 추가하는 경우 Discovery는 추가 5개 URL을 지원하는 데 필요한 추가 크롤러 연결을 생성합니다. 따라서 사용할 수 있는 최대 시작 URL수는 서비스 인스턴스에 구성된 다른 데이터 콜렉션에 따라 다릅니다. 사용자가 직접 한계를 계산할 수 있습니다.

URL 의 시작 제한을 계산하려면 다음 단계를 완료하십시오

서비스 인스턴스에서 다른 데이터 소스 콜렉션의 수를 계산하십시오. 이는 이 프로젝트 및 동일한 Discovery 인스턴스의 다른 프로젝트를 의미합니다.

예를 들어, 한 프로젝트에 두 개의 IBM Cloud Object Store 콜렉션이 있고 다른 프로젝트에 두 개의 Salesforce 콜렉션과 한 개의 SharePoint Online 콜렉션이 있을 수 있습니다. 이 예에서 기타 데이터 소스 콜렉션의 총 수는 5입니다.
허용되는 최대 크롤러 연결 수 (500) 에서 다른 데이터 소스 콜렉션 수를 뺍니다.

예를 들어, 500-5 = 495입니다.
나머지에 5를 곱하여 사용할 수 있는 시작 URL의 총 수를 판별하십시오.

예를 들어, 495 x 5 = 2,475입니다.

이 예에서 허용되는 최대 시작 URL수를 사용하려면 25개의 웹 크롤링 콜렉션이 필요합니다. 각 콜렉션에서 최대 100개의 시작 URL을 구성할 수 있기 때문입니다. 그러나 허용되는 절대 최대 수를 사용하도록 인스턴스를 구성하지 마십시오. 하나 이상의 추가 데이터 소스가 나중에 이 서비스 인스턴스의 프로젝트에 추가되면 인스턴스가 성공적으로 크롤링할 수 있는 시작 URL수에 영향을 줍니다.

크롤러 문제점 해결

403금지 오류가 리턴됩니다.: 크롤링할 웹 사이트는 이름 지정된 엔티티의 특정 세트를 제외한 모든 엔티티의 요청을 차단할 수 있습니다. 가능하면 사이트의 허용 목록에 크롤러를 추가하십시오. 크롤러의 식별 헤더는 User-Agent: IBM-AppConnect/V1 입니다.