웹 크롤링

웹사이트를 크롤링합니다. 공개 웹사이트와 인증이 필요한 웹사이트를 크롤링할 수 있습니다.

IBM Cloud Pak for Data IBM Software Hub

이 정보는 설치된 배포에만 적용됩니다. 관리형 배포에서 웹사이트를 크롤링하는 방법에 대한 자세한 내용은 웹 크롤링 를 참조하세요.

크롤링되는 문서

웹사이트 콘텐츠는 HTML 파일로 처리됩니다.
웹 크롤러에서 컨텐츠를 렌더링하기 위해 JavaScript를 사용하는 동적 웹 사이트를 크롤링하지 않습니다. 브라우저에서 웹 사이트의 소스 코드를 보고 JavaScript의 사용을 확인할 수 있습니다.
소스가 다시 크롤링되면, 새로 추가된 문서가 추가되고, 업데이트된 문서는 현재 버전으로 수정되며, 삭제된 문서는 새로 고침 중에 컬렉션의 색인에서 삭제됩니다.
모든 Discovery 데이터 원본 커넥터는 읽기 전용입니다. 크롤링 계정에 부여된 권한에 관계없이 Discovery는 원본 데이터 원본의 콘텐츠를 쓰거나 업데이트하거나 삭제하지 않습니다.

전제 조건 단계

인증이 필요한 웹사이트에 연결하려면 해당 사이트에 액세스하는 데 필요한 인증 자격 증명을 알고 있어야 합니다.

기본 인증이 필요한 웹사이트의 경우 다음 정보를 얻습니다:

사용자 이름

웹사이트에서 연결하려는 콘텐츠에 액세스할 수 있는 사용자의 사용자 아이디입니다.

비밀번호

사용자 이름과 연결된 비밀번호입니다.
Windows NT LAN 관리자(NTLM) 인증이 필요한 웹사이트의 경우 다음 정보를 얻으세요:

사용자 이름

웹사이트에서 연결하려는 콘텐츠에 액세스할 수 있는 사용자의 사용자 아이디입니다.

비밀번호

사용자 이름과 연결된 비밀번호입니다.

NTLM 도메인 이름

사이트에서 인증하는 사용자의 NTLM 도메인 이름입니다.

NTLM 호스트 이름

NTLM 서버의 호스트 이름입니다.
양식 기반 인증이 필요한 웹사이트의 경우 다음 옵션 중에서 사이트에 액세스하는 방법을 선택합니다:
- 직접 액세스: 로그인 페이지로 이동하지 않고 양식을 제출합니다.
  
  양식 작업 URL
  
  양식 제출 시 양식 데이터를 전송할 수 있는 ' URL '입니다. 예를 들어, /action_page.php입니다.
  
  필수 필드
  
  양식에 제공해야 하는 필드 값을 알아보세요.
- 간접 액세스: 로그인 페이지를 가져와 양식 필드를 채웁니다. 나중에 제공할 수 있도록 다음 정보를 메모해 두세요:
  
  양식 로그인 URL
  
  URL 웹사이트 로그인 페이지의
  
  양식 이름
  
  로그인 양식의 이름입니다.
  
  필수 필드
  
  로그인 양식에 입력해야 하는 필드 값을 알아보세요.

웹 크롤링 데이터 소스에 연결하기

인증이 필요한 웹사이트와 그렇지 않은 웹사이트가 포함된 URL 그룹을 크롤링하려는 경우, 인증 유형별로 다른 컬렉션을 만드는 것을 고려해 보십시오.

Discovery 프로젝트에서 다음 단계를 완료하십시오

탐색 창에서 컬렉션 관리를 선택합니다.
새 컬렉션을 클릭합니다.
웹 크롤링를 클릭한 다음 다음를 클릭합니다.
컬렉션의 이름을 지정합니다.
웹사이트의 언어가 영어가 아닌 경우 적절한 언어를 선택하세요.

지원되는 언어 목록은 언어 지원을 참조하십시오.
선택: 동기화 일정을 변경합니다.

웹 크롤링 데이터 소스는 일주일에 한두 번만 변경되는 웹사이트에 사용하도록 설계되었습니다. 컬렉션이 모든 웹사이트 업데이트를 캡처하도록 하려면 매주 크롤링을 수행하도록 예약하세요.

자세한 내용은 크롤링 일정 옵션 를 참조하세요.
크롤링할 위치를 지정하는 섹션에서 URL 웹사이트를 시작 URL 필드 에 추가한 다음, 추가를 클릭합니다. 시작 URL을 계속 추가합니다.

크롤러가 크롤링을 시작하는 URL입니다. 기본적으로 웹 크롤링은 하위 트리를 크롤링할 수 있으며, URL은 시드에 제공된 경로에서만 크롤링할 수 있습니다. 전체 URL을 사용하십시오(예: http://www.example.com/). 웹 크롤링의 시작 URL에는 크롤링 대상과 관련하여 두 가지 제한사항이 있습니다.
- 시작 URL과 동일한 도메인 이름을 크롤링합니다.
- /시작 URL의 마지막 슬래시()를 포함하여 모든 URL 컨텐츠를 크롤링합니다. 시작 URL에 서브트리가 있으면 시작 URL에 해당 URL을 지정하지 않으면 웹 크롤링에서 해당 서브트리를 크롤링하지 않습니다.
URL 가 HTTPS 로 시작하는 경우: 고급 구성 섹션 에서 인증서 무시 스위치를 켜짐으로 설정 하여 대상 웹사이트의 모든 SSL 인증서를 무시합니다.
선택: 인증 설정를 클릭하여 시작 URL 중 하나 이상에 적용할 인증 유형을 지정합니다:
- 시작 URL 를 선택하십시오.
- 다음 옵션에서 인증 유형을 선택하십시오
  - 기본 인증
  - NTLM 인증
  - 양식 인증
- 기본 인증의 경우 다음 세부 정보를 입력합니다:
  
  사용자 이름
  
  웹사이트에서 연결하려는 콘텐츠에 액세스할 수 있는 사용자의 사용자 아이디입니다.
  
  비밀번호
  
  사용자와 연관된 비밀번호입니다.
- NTLM 인증의 경우 다음 세부 정보를 입력합니다:
  
  사용자 이름
  
  웹사이트에서 연결하려는 콘텐츠에 액세스할 수 있는 사용자의 사용자 아이디입니다.
  
  비밀번호
  
  사용자와 연관된 비밀번호입니다.
  
  NTLM 도메인 이름
  
  인증 중인 사용자에게 속한 NTLM 도메인 이름.
  
  NTLM 호스트 이름
  
  NTLM 서버의 호스트 이름입니다.
- FORM 인증의 경우 다음 세부 정보를 입력합니다:
  - 양식 유형에서 다음 옵션 중 하나를 선택하십시오.
    
    직접
    
    로그인 페이지를 불러오지 않으려면 이 옵션을 클릭하십시오.
    
    간접
    
    로그인 페이지를 불러오고 로그인 양식에 매개변수를 채우려면 이 옵션을 클릭하십시오.
  - 직접을 선택하는 경우 다음 필드를 작성합니다:
    
    양식 작업 URL
    
    양식을 제출하는 데 필요한 양식 작업 URL.
    
    양식 방법
    
    GET 를 지정합니다.
  - 간접을 선택하는 경우 다음 필드를 작성합니다:
    
    양식 로그인 URL
    
    간접 양식 유형을 선택한 경우 이 필드는 필수입니다.
    
    양식 이름
    
    간접 양식 유형을 선택한 경우 이 필드는 필수입니다.
    
    양식 방법
    
    POST 를 지정합니다.
  - 양식 매개변수 섹션에서 양식 매개변수의 키-값 쌍 목록을 표시합니다.
    
    키 와 값 필드를 완성한 다음, +를 클릭하여 하나 이상의 폼 파라미터를 추가합니다.
선택 사항: 프록시 서버를 사용하여 데이터 소스 서버에 액세스하는 경우 프록시 설정 섹션에서 프록시 설정 사용 스위치를 On 로 설정합니다. 다음 필드에 값을 추가합니다:

사용자 이름

프록시 서버에 인증이 필요한 경우 프록시 서버 인증에 사용할 프록시 서버 사용자 이름입니다.

비밀번호

프록시 서버에 인증이 필요한 경우 프록시 서버 인증에 사용할 프록시 서버 비밀번호입니다.

프록시 서버 도메인

호스트가 상주하는 도메인입니다. 이 필드에 별표( *)와 같은 와일드카드를 지정하여 모든 도메인을 크롤링하거나 선행 별표(*.server1.bar.com)를 지정하여 패턴과 일치하는 도메인을 크롤링할 수 있습니다.

프록시 서버 호스트 이름 또는 IP 주소

LAN을 통해 서버에 액세스하려는 경우 호스트 이름 또는 프록시 서버로 사용할 서버의 IP 주소입니다.

프록시 서버 포트 번호

프록시 서버에 연결하고자 하는 네트워크 포트입니다.
선택 사항: 고급 구성 에서 다음 필드를 작성하십시오
사용할 코드 페이지

웹사이트 페이지의 문자 인코딩을 지정합니다. 지정하지 않으면 기본값인 UTF-8 가 사용됩니다.

중국어 웹사이트를 크롤링하는 경우 UTF-8 을 지정합니다.

URL 경로 깊이

크롤링할 사이트 경로의 수준입니다.

예를 들어, 시작 URL 를 https://www.example.com 로 지정하고 경로 깊이를 4 로 지정하면 크롤러는 https://www.example.com/some/more/examples/index.html 페이지에 액세스하게 되는데, 이 페이지는 루트 URL 에서 네 단계 떨어진 경로에 위치해 있습니다.

양수 값만 입력할 수 있습니다. 지정하지 않으면 기본값은 5 입니다. 허용되는 최대 경로 깊이는 20 입니다.

최대 홉

처음부터 따라갈 수 있는 연속 링크의 수 URL.

지정하지 않으면 기본값은 5 입니다. 크롤러가 팔로우할 수 있는 최대 링크 수는 20 입니다. 홉을 허용하지 않으려면 0 을 입력합니다.

robots.txt 무시하기

크롤러가 웹사이트의 robots.txt 파일에 명시된 허용 및 거부 규칙을 무시하도록 하려면 이 설정을 사용 설정합니다.

사이트에서는 일반적으로 크롤링 결과를 개선하기 위해 이 파일을 사용한다는 점에 유의하세요. 예를 들어, 중복 정보가 크롤링되는 것을 방지하거나 초안 콘텐츠가 읽히지 않도록 하거나 사이트에 과부하가 걸리지 않도록 크롤링을 지연시키기 위해 robots.txt 파일을 사용할 수 있습니다.

도메인 크롤링 규칙
크롤러의 크롤링을 허용하거나 금지할 도메인 이름을 지정합니다.

도메인 이름은 대소문자를 구분하며 와일드카드 문자(*)는 도메인 이름 어디에서나 사용할 수 있습니다.

규칙의 순서는 중요합니다. 크롤러는 후보인 URL 에 일치하는 첫 번째 규칙을 적용합니다. 기본 규칙인 도메인 금지 *는 모든 웹 크롤링을 금지하며 도메인 규칙 목록의 마지막에 위치해야 합니다.

예를 들어 다음과 같은 유형의 규칙을 정의할 수 있습니다:
- 전체 ibm.com 도메인을 제외하려면 다음과 같이 하세요:
```
forbid domain www.ibm.com
```
- ibm.com 로 끝나는 도메인을 크롤링하려면 다음과 같이 하세요:
```
allow domain *.ibm.com
```
- 443 로 시작하는 IBM 도메인에서 server 포트만 크롤링하려면 다음과 같이 하세요:
```
allow domain server*.ibm.com:443
```
URL 접두사를 사용하는 규칙
크롤러가 크롤링을 허용하거나 금지할 HTTP 및 HTTPS 접두사를 지정합니다.

URL 에서 와일드카드 문자(*)는 한 번 이상 사용할 수 있습니다.

규칙의 순서는 중요합니다. 크롤러는 후보인 URL 에 일치하는 첫 번째 규칙을 적용합니다.

예를 들어 다음과 같은 유형의 규칙을 정의할 수 있습니다:
- 이 도메인의 공개 디렉터리에 있는 페이지를 크롤링합니다:
```
allow prefix http://*.ibm.com/public/*
```
- 이 도메인에서 다른 모든 디렉터리를 제외합니다:
```
forbid prefix http://*.ibm.com/*
```
고급 크롤러 속성

IBM 지원팀에서 지시하는 경우에만 사용하세요.
선택: 대상 웹사이트의 모든 SSL 인증서를 무시하려면 인증서 무시 스위치를 On 으로 설정합니다.

이 옵션은 HTTPS URL에만 적용됩니다.
크롤러가 사이트의 이미지에서 텍스트를 추출하도록 하려면 추가 처리 설정를 확장하고 광학 문자 인식(OCR) 를 On 으로 설정합니다.

OCR이 활성화되어 있고 문서에 이미지가 포함되어 있으면 처리 시간이 더 오래 걸립니다. 자세한 내용은 광학 문자 인식 를 참조하세요.
** 완료**를 누르십시오.

컬렉션이 빠르게 생성됩니다. 데이터가 컬렉션에 추가되면 처리하는 데 시간이 더 걸립니다.

진행 상황을 확인하려면 활동 페이지로 이동하세요. 탐색 창에서 컬렉션 관리를 클릭한 다음 클릭하여 컬렉션을 엽니다.