웹 크롤링
웹사이트를 크롤링합니다. 공개 웹사이트와 인증이 필요한 웹사이트를 크롤링할 수 있습니다.
IBM Cloud Pak for Data IBM Software Hub
이 정보는 설치된 배포에만 적용됩니다. 관리형 배포에서 웹사이트를 크롤링하는 방법에 대한 자세한 내용은 웹 크롤링 를 참조하세요.
크롤링되는 문서
- 웹사이트 콘텐츠는 HTML 파일로 처리됩니다.
- 웹 크롤러에서 컨텐츠를 렌더링하기 위해 JavaScript를 사용하는 동적 웹 사이트를 크롤링하지 않습니다. 브라우저에서 웹 사이트의 소스 코드를 보고 JavaScript의 사용을 확인할 수 있습니다.
- 소스가 다시 크롤링되면, 새로 추가된 문서가 추가되고, 업데이트된 문서는 현재 버전으로 수정되며, 삭제된 문서는 새로 고침 중에 컬렉션의 색인에서 삭제됩니다.
- 모든 Discovery 데이터 원본 커넥터는 읽기 전용입니다. 크롤링 계정에 부여된 권한에 관계없이 Discovery는 원본 데이터 원본의 콘텐츠를 쓰거나 업데이트하거나 삭제하지 않습니다.
전제 조건 단계
인증이 필요한 웹사이트에 연결하려면 해당 사이트에 액세스하는 데 필요한 인증 자격 증명을 알고 있어야 합니다.
-
기본 인증이 필요한 웹사이트의 경우 다음 정보를 얻습니다:
- 사용자 이름
- 웹사이트에서 연결하려는 콘텐츠에 액세스할 수 있는 사용자의 사용자 아이디입니다.
- 비밀번호
- 사용자 이름과 연결된 비밀번호입니다.
-
Windows NT LAN 관리자(NTLM) 인증이 필요한 웹사이트의 경우 다음 정보를 얻으세요:
- 사용자 이름
- 웹사이트에서 연결하려는 콘텐츠에 액세스할 수 있는 사용자의 사용자 아이디입니다.
- 비밀번호
- 사용자 이름과 연결된 비밀번호입니다.
- NTLM 도메인 이름
- 사이트에서 인증하는 사용자의 NTLM 도메인 이름입니다.
- NTLM 호스트 이름
- NTLM 서버의 호스트 이름입니다.
-
양식 기반 인증이 필요한 웹사이트의 경우 다음 옵션 중에서 사이트에 액세스하는 방법을 선택합니다:
-
직접 액세스: 로그인 페이지로 이동하지 않고 양식을 제출합니다.
- 양식 작업 URL
- 양식 제출 시 양식 데이터를 전송할 수 있는 ' URL '입니다. 예를 들어,
/action_page.php
입니다. - 필수 필드
- 양식에 제공해야 하는 필드 값을 알아보세요.
-
간접 액세스: 로그인 페이지를 가져와 양식 필드를 채웁니다. 나중에 제공할 수 있도록 다음 정보를 메모해 두세요:
- 양식 로그인 URL
- URL 웹사이트 로그인 페이지의
- 양식 이름
- 로그인 양식의 이름입니다.
- 필수 필드
- 로그인 양식에 입력해야 하는 필드 값을 알아보세요.
-
웹 크롤링 데이터 소스에 연결하기
인증이 필요한 웹사이트와 그렇지 않은 웹사이트가 포함된 URL 그룹을 크롤링하려는 경우, 인증 유형별로 다른 컬렉션을 만드는 것을 고려해 보십시오.
Discovery 프로젝트에서 다음 단계를 완료하십시오
-
탐색 창에서 컬렉션 관리를 선택합니다.
-
새 컬렉션을 클릭합니다.
-
웹 크롤링를 클릭한 다음 다음를 클릭합니다.
-
컬렉션의 이름을 지정합니다.
-
웹사이트의 언어가 영어가 아닌 경우 적절한 언어를 선택하세요.
지원되는 언어 목록은 언어 지원을 참조하십시오.
-
선택: 동기화 일정을 변경합니다.
웹 크롤링 데이터 소스는 일주일에 한두 번만 변경되는 웹사이트에 사용하도록 설계되었습니다. 컬렉션이 모든 웹사이트 업데이트를 캡처하도록 하려면 매주 크롤링을 수행하도록 예약하세요.
자세한 내용은 크롤링 일정 옵션 를 참조하세요.
-
크롤링할 위치를 지정하는 섹션에서 URL 웹사이트를 시작 URL 필드 에 추가한 다음, 추가를 클릭합니다. 시작 URL을 계속 추가합니다.
크롤러가 크롤링을 시작하는 URL입니다. 기본적으로 웹 크롤링은 하위 트리를 크롤링할 수 있으며, URL은 시드에 제공된 경로에서만 크롤링할 수 있습니다. 전체 URL을 사용하십시오(예:
http://www.example.com/
). 웹 크롤링의 시작 URL에는 크롤링 대상과 관련하여 두 가지 제한사항이 있습니다.- 시작 URL과 동일한 도메인 이름을 크롤링합니다.
/
시작 URL의 마지막 슬래시()를 포함하여 모든 URL 컨텐츠를 크롤링합니다. 시작 URL에 서브트리가 있으면 시작 URL에 해당 URL을 지정하지 않으면 웹 크롤링에서 해당 서브트리를 크롤링하지 않습니다.
-
URL 가 HTTPS 로 시작하는 경우: 고급 구성 섹션 에서 인증서 무시 스위치를 켜짐으로 설정 하여 대상 웹사이트의 모든 SSL 인증서를 무시합니다.
-
선택: 인증 설정를 클릭하여 시작 URL 중 하나 이상에 적용할 인증 유형을 지정합니다:
-
시작 URL 를 선택하십시오.
-
다음 옵션에서 인증 유형을 선택하십시오
- 기본 인증
- NTLM 인증
- 양식 인증
-
기본 인증의 경우 다음 세부 정보를 입력합니다:
- 사용자 이름
- 웹사이트에서 연결하려는 콘텐츠에 액세스할 수 있는 사용자의 사용자 아이디입니다.
- 비밀번호
- 사용자와 연관된 비밀번호입니다.
-
NTLM 인증의 경우 다음 세부 정보를 입력합니다:
- 사용자 이름
- 웹사이트에서 연결하려는 콘텐츠에 액세스할 수 있는 사용자의 사용자 아이디입니다.
- 비밀번호
- 사용자와 연관된 비밀번호입니다.
- NTLM 도메인 이름
- 인증 중인 사용자에게 속한 NTLM 도메인 이름.
- NTLM 호스트 이름
- NTLM 서버의 호스트 이름입니다.
-
FORM 인증의 경우 다음 세부 정보를 입력합니다:
-
양식 유형에서 다음 옵션 중 하나를 선택하십시오.
- 직접
- 로그인 페이지를 불러오지 않으려면 이 옵션을 클릭하십시오.
- 간접
- 로그인 페이지를 불러오고 로그인 양식에 매개변수를 채우려면 이 옵션을 클릭하십시오.
-
직접을 선택하는 경우 다음 필드를 작성합니다:
- 양식 작업 URL
- 양식을 제출하는 데 필요한 양식 작업 URL.
- 양식 방법
- GET 를 지정합니다.
-
간접을 선택하는 경우 다음 필드를 작성합니다:
- 양식 로그인 URL
- 간접 양식 유형을 선택한 경우 이 필드는 필수입니다.
- 양식 이름
- 간접 양식 유형을 선택한 경우 이 필드는 필수입니다.
- 양식 방법
- POST 를 지정합니다.
-
양식 매개변수 섹션에서 양식 매개변수의 키-값 쌍 목록을 표시합니다.
키 와 값 필드를 완성한 다음, +를 클릭하여 하나 이상의 폼 파라미터를 추가합니다.
-
-
-
선택 사항: 프록시 서버를 사용하여 데이터 소스 서버에 액세스하는 경우 프록시 설정 섹션에서 프록시 설정 사용 스위치를
On
로 설정합니다. 다음 필드에 값을 추가합니다:- 사용자 이름
- 프록시 서버에 인증이 필요한 경우 프록시 서버 인증에 사용할 프록시 서버 사용자 이름입니다.
- 비밀번호
- 프록시 서버에 인증이 필요한 경우 프록시 서버 인증에 사용할 프록시 서버 비밀번호입니다.
- 프록시 서버 도메인
- 호스트가 상주하는 도메인입니다. 이 필드에 별표(
*
)와 같은 와일드카드를 지정하여 모든 도메인을 크롤링하거나 선행 별표(*.server1.bar.com
)를 지정하여 패턴과 일치하는 도메인을 크롤링할 수 있습니다. - 프록시 서버 호스트 이름 또는 IP 주소
- LAN을 통해 서버에 액세스하려는 경우 호스트 이름 또는 프록시 서버로 사용할 서버의 IP 주소입니다.
- 프록시 서버 포트 번호
- 프록시 서버에 연결하고자 하는 네트워크 포트입니다.
-
선택 사항: 고급 구성 에서 다음 필드를 작성하십시오
- 사용할 코드 페이지
-
웹사이트 페이지의 문자 인코딩을 지정합니다. 지정하지 않으면 기본값인
UTF-8
가 사용됩니다.중국어 웹사이트를 크롤링하는 경우
UTF-8
을 지정합니다. - URL 경로 깊이
-
크롤링할 사이트 경로의 수준입니다.
예를 들어, 시작 URL 를
https://www.example.com
로 지정하고 경로 깊이를4
로 지정하면 크롤러는https://www.example.com/some/more/examples/index.html
페이지에 액세스하게 되는데, 이 페이지는 루트 URL 에서 네 단계 떨어진 경로에 위치해 있습니다.양수 값만 입력할 수 있습니다. 지정하지 않으면 기본값은
5
입니다. 허용되는 최대 경로 깊이는20
입니다. - 최대 홉
-
처음부터 따라갈 수 있는 연속 링크의 수 URL.
지정하지 않으면 기본값은
5
입니다. 크롤러가 팔로우할 수 있는 최대 링크 수는20
입니다. 홉을 허용하지 않으려면0
을 입력합니다. - robots.txt 무시하기
-
크롤러가 웹사이트의 robots.txt 파일에 명시된 허용 및 거부 규칙을 무시하도록 하려면 이 설정을 사용 설정합니다.
사이트에서는 일반적으로 크롤링 결과를 개선하기 위해 이 파일을 사용한다는 점에 유의하세요. 예를 들어, 중복 정보가 크롤링되는 것을 방지하거나 초안 콘텐츠가 읽히지 않도록 하거나 사이트에 과부하가 걸리지 않도록 크롤링을 지연시키기 위해 robots.txt 파일을 사용할 수 있습니다.
- 도메인 크롤링 규칙
-
크롤러의 크롤링을 허용하거나 금지할 도메인 이름을 지정합니다.
도메인 이름은 대소문자를 구분하며 와일드카드 문자(*)는 도메인 이름 어디에서나 사용할 수 있습니다.
규칙의 순서는 중요합니다. 크롤러는 후보인 URL 에 일치하는 첫 번째 규칙을 적용합니다. 기본 규칙인 도메인 금지 *는 모든 웹 크롤링을 금지하며 도메인 규칙 목록의 마지막에 위치해야 합니다.
예를 들어 다음과 같은 유형의 규칙을 정의할 수 있습니다:
-
전체 ibm.com 도메인을 제외하려면 다음과 같이 하세요:
forbid domain www.ibm.com
-
ibm.com
로 끝나는 도메인을 크롤링하려면 다음과 같이 하세요:allow domain *.ibm.com
-
443
로 시작하는 IBM 도메인에서server
포트만 크롤링하려면 다음과 같이 하세요:allow domain server*.ibm.com:443
-
- URL 접두사를 사용하는 규칙
-
크롤러가 크롤링을 허용하거나 금지할 HTTP 및 HTTPS 접두사를 지정합니다.
URL 에서 와일드카드 문자(*)는 한 번 이상 사용할 수 있습니다.
규칙의 순서는 중요합니다. 크롤러는 후보인 URL 에 일치하는 첫 번째 규칙을 적용합니다.
예를 들어 다음과 같은 유형의 규칙을 정의할 수 있습니다:
-
이 도메인의 공개 디렉터리에 있는 페이지를 크롤링합니다:
allow prefix http://*.ibm.com/public/*
-
이 도메인에서 다른 모든 디렉터리를 제외합니다:
forbid prefix http://*.ibm.com/*
-
- 고급 크롤러 속성
-
IBM 지원팀에서 지시하는 경우에만 사용하세요.
-
선택: 대상 웹사이트의 모든 SSL 인증서를 무시하려면 인증서 무시 스위치를
On
으로 설정합니다.이 옵션은 HTTPS URL에만 적용됩니다.
-
크롤러가 사이트의 이미지에서 텍스트를 추출하도록 하려면 추가 처리 설정를 확장하고 광학 문자 인식(OCR) 를
On
으로 설정합니다.OCR이 활성화되어 있고 문서에 이미지가 포함되어 있으면 처리 시간이 더 오래 걸립니다. 자세한 내용은 광학 문자 인식 를 참조하세요.
-
** 완료**를 누르십시오.
컬렉션이 빠르게 생성됩니다. 데이터가 컬렉션에 추가되면 처리하는 데 시간이 더 걸립니다.
진행 상황을 확인하려면 활동 페이지로 이동하세요. 탐색 창에서 컬렉션 관리를 클릭한 다음 클릭하여 컬렉션을 엽니다.