Windows File System
Microsoft Windows 파일 시스템에 저장된 문서를 크롤링합니다.
IBM Cloud Pak for Data IBM Software Hub
이 정보는 설치된 배포에만 적용됩니다.
크롤링되는 문서
- 파일 경로에서 Discovery가 지원하는 문서만 크롤링되며, 그 외의 문서는 모두 무시됩니다. 자세한 내용은 지원되는 파일 형식 를 참조하세요.
- 문서 수준 보안이 지원됩니다. 이 옵션을 활성화하면 사용자가 파일 시스템에 직접 액세스할 때 액세스할 수 있는 것과 동일한 콘텐츠를 크롤링하고 쿼리할 수 있습니다.
- 소스가 다시 크롤링되면, 새로운 문서가 추가되고, 업데이트된 문서는 현재 버전으로 수정되며, 삭제된 문서는 컬렉션의 색인에서 삭제됩니다.
- 모든 Discovery 데이터 원본 커넥터는 읽기 전용입니다. 크롤링 계정에 부여된 권한에 관계없이 Discovery는 원본 데이터 원본의 콘텐츠를 쓰거나 업데이트하거나 삭제하지 않습니다.
데이터 소스 요구사항
설치된 모든 배포에 대한 데이터 소스 요구 사항 외에도 Windows 파일 시스템 데이터 소스는 다음 요구 사항을 충족해야 합니다:
- 이 커넥터는 Microsoft Windows Server 2012 R2, 2016, 2019 및 2022를 지원합니다.
- 크롤링할 원격 에이전트 서버와 파일 서버는 동일한 Windows 도메인에 속해야 합니다. 크롤러는 단일 윈도우 도메인에서만 액세스 제어 목록(ACL) 데이터를 수집할 수 있습니다.
Microsoft Windows Server 2022에 대한 지원은 4.6 릴리스에 추가되었습니다. 4.7 릴리스부터는 TLS(전송 계층 보안) 프로토콜 지원을 활성화하여 Windows 에이전트 서비스와 해당 크롤러 간에 전송되는 트래픽을 보호할 수 있습니다.
전제조건 단계
-
문서 수준 보안을 사용하려면 몇 가지 단계를 거쳐 설정해야 합니다. 자세한 내용은 문서 수준 보안 지원 를 참조하세요.
문서 수준 보안을 구성하려면 다음 정보를 수집해야 합니다:
- LDAP 서버 URL
- LDAP 서버 URL 에 연결합니다. 예를 들어,
ldap://<ldap_server>:<port>
입니다. - LDAP 바인딩 사용자 이름
- 디렉토리 서비스에 바인딩하는 데 사용할 사용자 이름입니다.
대부분의 경우 이 사용자 이름은 식별 이름(DN)입니다. Active Directory 사용자 아이디는 작동할 수 있지만 일반적인 Windows 로그온과 달리 대소문자를 구분합니다.
- LDAP 바인딩 사용자 비밀번호
- 바인딩된 사용자 이름과 관련된 비밀번호입니다.
- LDAP 기본 DN
- LDAP에서 사용자 항목을 검색하기 위한 시작점입니다. 예를 들어,
CN=Users,DC=example,DC=com
입니다. - LDAP 사용자 필터
- LDAP에서 사용자 항목을 검색하는 사용자 필터. 비어 있는 경우 기본값은
(userPrincipalName={0})
입니다.
-
Windows 파일 시스템 컬렉션을 구성하기 전에 원격 Windows 파일 서버 또는 원격 Windows 서버에 IBM Watson Discovery Windows 파일 시스템용 에이전트를 설치해야 합니다. 에이전트는 데이터 소스 서버에서 데이터를 가져와 Discovery 로 보내는 Windows 서비스입니다. 에이전트는 원격 Windows 파일 시스템, 에이전트에 로컬인 드라이브 및 공유 네트워크 폴더를 크롤링할 수 있습니다.
원격 Windows 서버에 에이전트를 설치하는 경우, 원격 Windows 서버가 하나 이상의 파일 서버를 마운트할 수 있어야 에이전트가 원격 Windows 파일 시스템을 크롤링할 수 있습니다.
에이전트를 설치하고 구성하려면 다음 작업을 완료하십시오
에이전트 설치
4.6 릴리즈와 함께, Windows 파일 시스템용 왓슨 디스커버리 에이전트는 64비트 버전의 Windows에서 실행되도록 업데이트되었습니다. 4.6 이전 릴리스로 에이전트를 설치한 경우에는 이전 버전을 제거하고 삭제한 다음 에이전트를 다시 설치해야 합니다.
다음 태스크 중 하나를 수행하십시오.
- 이전 설치 버전이 4.6: 4.6 이전 버전인 pre-4.6 에이전트로 교체 입니다
- 커넥터를 처음 사용 중입니다: 에이전트 설치
pre-4.6 에이전트를 교체합니다
IBM Watson Discovery 에이전트 for Windows 파일 시스템 버전이 설치된 배포에 필요하며, 4.6.0.0보다 이전 버전이 설치되어 있어야 합니다.
이전 버전의 에이전트를 교체하려면 다음 단계를 완료하세요:
-
Windows 파일 시스템 에이전트가 액세스할 수 있는 공유 네트워크 디렉터리를 정의하는 구성 파일을 에이전트의 파일 경로 외부에 있는 디렉터리(
C:\Program Files (x86)\IBM\es
)에 복사합니다.예를 들어
C:\Program Files (x86)\IBM\es\distributed\esadmin\config\esfsexport.txt
파일을C:\temp
디렉토리와 같은 디렉터리에 복사합니다. -
Microsoft Windows 앱 및 기능 유틸리티에서 이전 버전의 IBM Watson Discovery Windows 파일 시스템용 Agent를 찾은 다음 Uninstall를 클릭합니다.
-
완전 삭제 IBM Watson Discovery Windows 파일 시스템용 에이전트를 선택한 다음 제거를 클릭합니다.
-
시스템을 다시 시작하십시오.
-
에이전트 설치하기 의 단계를 완료하여 최신 버전의 에이전트를 설치합니다.
-
새 버전의
C:\Program Files\IBM\es\distributed\esadmin\config\esfsexport.txt
파일을 1단계에서 복사한 파일로 바꿉니다.이 단계에서는 이전 버전의 에이전트에 대해 설정한 공유 디렉터리 구성을 새 설치에 추가합니다. 파일 공유를 재사용하는 경우 공유 디렉터리를 구성하는 단계를 건너뛸 수 있습니다.
-
다음 명령을 실행하여 디렉터리가 상담원 서비스와 공유되는지 확인합니다:
C:\Users\Administrator> esagent --lsshare
에이전트 설치
Windows 파일 시스템용 왓슨 디스커버리 에이전트를 처음 설치하려면 다음 단계를 완료합니다:
-
탐색 창에서 컬렉션 관리를 선택합니다.
-
새 컬렉션을 클릭합니다.
-
Windows 파일 시스템를 클릭한 다음 다음를 클릭합니다.
-
Windows 에이전트 다운로드 및 설치 섹션으로 스크롤한 다음 Windows 에이전트 설치 프로그램 다운로드를 클릭합니다.
ZIP 파일이 다운로드됩니다.
-
WindowsAgentServer.zip
파일의 압축을 풉니다. -
다음 방법 중 하나를 선택하여 설치 프로그램을 실행할 수 있습니다.
-
install.exe
파일을 더블 클릭하여 설치 마법사를 시작합니다. -
콘솔에서 텍스트 모드로 설치 프로그램을 실행하려면 다음 단계를 완료하십시오
-
에이전트 디렉토리로 변경하십시오.
-
다음 명령을 입력하십시오.
install.exe -i console
화면이 텍스트로 렌더링되고 그래픽 설치와 동일한 정보를 프롬프트합니다.
명령어를 입력한 후 콘솔 설치 프로그램이 표시되기까지 몇 초 동안 백그라운드에서 프로세스가 실행됩니다.
-
-
에이전트 서버를 자동으로 설치하려면 다음 단계를 완료하십시오
-
Agent/responseFiles
디렉토리로 변경하십시오. -
DistributedFileSystemCrawler.properties
템플리트 응답 파일을 편집하여 사용자 환경에 대한 정보를 제공하십시오. 설치 프로그램을 실행하려면 에이전트 디렉토리로 이동한 다음 편집한 파일의 이름을 지정합니다.다음 예를 참조하십시오.
install.exe -i silent -f responseFiles/DistributedFileSystemCrawler.properties
편집할 다른 위치로 템플리트 파일을 복사하는 경우 설치 프로그램을 실행할 때 파일의 완전한 경로를 지정하십시오. 응답 파일 경로에 공백이 포함된 경우, 경로를 큰따옴표로 묶으십시오(
"
). 다음 예를 보십시오:install.exe -i silent -f "c:\My Documents\DistributedFileSystemCrawler.properties"
-
-
-
설치 과정에서 다음 정보를 제공해야 합니다:
-
hostname
: 상담원 서버를 설치할 컴퓨터의 정규화된 호스트 이름을 입력하거나 확인합니다.IPv6 주소를 서버의 호스트 이름으로 지정할 수 없습니다.
-
username
: 에이전트 서버에 대한 액세스를 승인하는 데 사용할 수 있는 계정의 사용자 이름을 입력합니다.사용자 이름이 존재하지 않는 경우, 계정 생성 체크박스를 선택합니다.
보안 컬렉션에서 도메인을 크롤링하려면 사용자 이름이 크롤링할 Windows 시스템에 대한 관리 권한이 있는 기존 도메인 사용자여야 합니다. 도메인 사용자를 지정하려면
<username>@<domain name>
형식을 사용하십시오. -
password
: 사용자 아이디와 연결된 비밀번호를 입력합니다.
-
-
옵션: 기본 경로와 포트 설정을 변경하려면 고급 옵션를 클릭합니다.
- 설치 디렉토리 및 데이터 디렉토리에 대한 경로를 변경할 수 있습니다.
- 에이전트 서버는 서버에 대한 연결을 인증하고 파일 시스템과 Discovery 간의 데이터를 전송하고 에이전트 서버를 모니터링하기 위해 3개의 TCP/IP 포트를 사용합니다. 기본 포트 번호는
8397
및8398
입니다. 이러한 값이 시스템의 기타 포트 지정과 충돌하는 경우에는 포트 번호를 변경하십시오.
-
요약 페이지에서 선택한 옵션을 검토하고 설치를 클릭하여 소프트웨어 설치를 시작하십시오.
-
선택 사항: Windows 에이전트 서비스와 크롤러 간의 트래픽을 보호하려면 TLS 지원을 사용 설정합니다.
압축을 푼 디렉터리에서 에이전트가 설치된 루트 디렉터리로
tls.p12
이라는 파일을 복사합니다. 예를 들어 루트 디렉터리는C:\Program Files\IBM\es\distributed\esadmin
가 될 수 있습니다.TLS 지원은 4.7 릴리스부터 사용할 수 있습니다.
-
컴퓨터를 다시 시작하십시오.
에이전트 서버에서 공유 디렉토리 구성
소프트웨어가 설치된 후 Windows File System 에이전트가 액세스할 수 있는 공유 네트워크 디렉토리를 설정해야 합니다. 새로운 파일 시스템 공유를 정의하려면 로컬 또는 원격 네트워크 디렉토리를 내보내십시오.
설치한 에이전트를 4.6.0.0보다 이전 릴리즈로 교체하는 경우에는 이 절차를 건너뛰세요. 교체 지침에는 이전에 정의한 파일 공유를 재사용하는 방법이 설명되어 있습니다.
-
에이전트가 설치된 서버에서 로컬 디렉토리를 내보내십시오.
esagent --addshare <d:><\example>
여기서,
d:
는 사용하려는 드라이브 문자를 표시하며\example
은 로컬 디렉토리의 경로를 표시합니다. -
에이전트가 설치된 서버에서 액세스할 수 있는 원격 네트워크 디렉토리를 내보내십시오.
esagent --addshare <\\files.example.com\data>
여기서
\\files.example.com\data
는 원격 서버의 호스트 이름 또는 IP 주소 또는 원격 디렉토리의 경로를 나타냅니다. -
에이전트가 설치된 서버에 정의된 공유를 나열하십시오.
esagent --lsshare
-
에이전트가 설치된 서버에 정의된 공유를 삭제하려면 다음 명령을 사용할 수 있습니다:
esagent --rmshare \\files.example.com\data
서버 상태 명령
에이전트 서버를 설치한 후, 시작, 중지, 서버 상태 확인 등의 명령을 입력할 수 있습니다.
에이전트 서버를 중지하면 크롤러도 중지됩니다. 예를 들어, 크롤러가 예기치 않게 중지되면 해당 크롤러의 연결을 종료하고 리소스를 해제할 수 있습니다.
-
서버를 시작하려면 다음 명령을 입력하십시오
esagent start
-
서버를 중지하려면 다음 명령을 입력하십시오
esagent stop
-
에이전트 서버의 상태를 확인하려면 다음 명령을 입력하십시오
esagent getStatus
getStatus
명령의 출력은 다음과 같은 내용을 가진 XML 파일입니다
<AgentStatus>
<SpaceStatus>
<SpaceId>012</SpaceId>
<RootFolder>E:\\Projects\Analytics\\data\test1</RootFolder>
<ConnectionNumber>9</ConnectionNumber>
<StartTime>1244709336093</StartTime>
<LastTime>1244709385843</LastTime>
<IdlePeriod>219</IdlePeriod>
</SpaceStatus>
<SpaceStatus>
<SpaceId>013</SpaceId>
<RootFolder>E:\\Projects\Analytics\\data\test2</RootFolder>
<ConnectionNumber>10</ConnectionNumber>
<StartTime>1244709336093</StartTime>
<LastTime>1244709385843</LastTime>
<IdlePeriod>219</IdlePeriod>
</SpaceStatus>
Windows 파일 시스템 데이터 원본에 연결
Discovery 프로젝트에서 다음 단계를 완료하십시오.
필수 단계를 완료한 경우 만들기 시작한 Windows 파일 시스템 데이터 원본 컬렉션으로 돌아가서 4단계로 건너뜁니다.
-
탐색 창에서 컬렉션 관리를 선택합니다.
-
새 컬렉션을 클릭합니다.
-
Windows 파일 시스템를 클릭한 다음 다음를 클릭합니다.
-
컬렉션의 이름을 지정합니다.
-
크롤링하려는 문서의 언어가 영어가 아닌 경우 적절한 언어를 선택합니다.
지원되는 언어 목록은 언어 지원을 참조하십시오.
-
선택: 동기화 일정을 변경합니다.
자세한 내용은 크롤링 일정 옵션 를 참조하세요.
-
인증정보 입력 섹션에서 다음 필드에 값을 추가합니다. 이러한 필드는 상담원 서버를 설치하는 동안 필수 단계 섹션에 설명된 대로 제공했습니다.
- 호스트
- 원격 Microsoft Windows 서버의 호스트 이름, 예를 들어
<hostname>.mydomain.com
. - 사용자 이름
- 상담원 서버에 연결할 사용자 이름입니다. Discovery 를 공유 네트워크 폴더에 연결하고 콘텐츠를 크롤링하는 데 사용자 이름을 사용합니다.
- 비밀번호
- 사용자 이름과 연결된 비밀번호입니다.
- 상담원 인증 포트
- 인증에 사용할 포트입니다. 기본 포트 값은
8397
입니다. - 포트
- 데이터 전송에 사용할 포트입니다. 기본 포트 값은
8398
입니다.
-
크롤링할 대상 지정하기 섹션의 경로 필드에 크롤링할 파일 경로를 입력한 다음 추가를 클릭합니다.
파일 경로는 대소문자를 구분합니다.
원하는 경우 파일 경로를 더 추가합니다.
-
선택: 크롤링되는 파일 유형을 사용자 지정합니다.
크롤러는 크롤링하기에 안전하지 않을 수 있는 파일 형식의 파일 확장자 목록을 제외하도록 자동으로 구성됩니다. 제외된 필터 목록에 파일 확장자를 더 추가하거나 크롤링에 포함하려는 파일 형식의 파일 확장자만 나열할 수 있습니다. 포함할 파일 유형을 나열하면 훨씬 더 안전합니다.
크롤링되는 파일 형식을 변경하려면 확장 필터 섹션에서 제외 또는 포함 필터 목록을 사용할지 선택합니다. 그런 다음 제외하거나 포함하려는 파일 유형의 파일 확장자를 나열합니다.
이 구성 옵션은 4.0.3 에서 처음 도입되었습니다.
-
옵션: 크롤링할 데이터의 문자 집합을 지정합니다.
크롤러에서 사용하는 변환기는 파일을 변환하기 전에 파일의 문자 집합을 감지하도록 자동으로 구성됩니다. 그러나 데이터 변환에 사용할 다른 문자 인코딩을 지정하도록 선택할 수 있습니다. 문자 인코딩을 지정하려면 다음 단계를 완료하십시오
- 자동 코드 페이지 감지 스위치를
Off
로 설정합니다. - 사용할 코드 페이지 필드에서 문자 인코딩을 Java 문자 집합 값으로 지정합니다. 예를 들어,
UTF-8
또는UTF-16
입니다. 문자 집합을 지정하지 않으면 ISO-8859-1이 사용됩니다.
이 구성 옵션은 4.0.3 에서 처음 도입되었습니다.
- 자동 코드 페이지 감지 스위치를
-
선택 사항: 문서 수준 보안을 사용하려면 보안 섹션에서 문서 수준 보안 사용 스위치를
On
로 설정합니다.이 옵션을 사용으로 설정하면 액세스 권한이 있는 컨텐츠를 크롤링하고 조회할 수 있습니다. 사용하려는 LDAP 디렉터리에 대한 세부 정보를 제공해야 합니다.
- LDAP 서버 URL
- LDAP 서버 URL 에 연결합니다. 예를 들어,
ldap://<ldap_server>:<port>
입니다. - LDAP 바인딩 사용자 이름
- 디렉토리 서비스에 바인딩하는 데 사용할 사용자 이름입니다.
- LDAP 바인딩 사용자 비밀번호
- 바인딩된 사용자 이름과 관련된 비밀번호입니다.
- LDAP 기본 DN
- LDAP에서 사용자 항목을 검색하기 위한 시작점입니다. 예를 들어,
CN=Users,DC=example,DC=com
입니다. - LDAP 사용자 필터
- LDAP에서 사용자 항목을 검색하는 사용자 필터. 비어 있는 경우 기본값은
(userPrincipalName={0})
입니다.
-
크롤러가 문서의 이미지에서 텍스트를 추출하도록 하려면 추가 처리 설정를 확장하고 광학 문자 인식(OCR) 를
On
으로 설정하세요.OCR이 활성화되어 있고 문서에 이미지가 포함되어 있으면 처리 시간이 더 오래 걸립니다. 자세한 내용은 광학 문자 인식 를 참조하세요.
-
** 완료**를 누르십시오.
컬렉션이 빠르게 생성됩니다. 데이터가 컬렉션에 추가되면 처리하는 데 시간이 더 걸립니다.
진행 상황을 확인하려면 활동 페이지로 이동하세요. 탐색 창에서 컬렉션 관리를 클릭한 다음 클릭하여 컬렉션을 엽니다.
기존 컬렉션에 TLS 사용 설정
Windows 에이전트 서비스와 크롤러 간에 전송되는 모든 트래픽이 TLS(전송 계층 보안) 프로토콜을 통해 전송되도록 하려면 TLS 지원을 사용 설정하세요.
이 기능은 버전 4.7부터 사용할 수 있습니다. 이 작업은 서비스 소프트웨어를 4.7로 업그레이드할 때까지 완료하지 마세요.
Windows 에이전트 서비스에 대해 TLS를 사용하도록 설정하면 이전 버전의 Discovery를 사용하는 배포의 기존 컬렉션은 이 Windows 에이전트 서비스에 연결할 수 없습니다.
기존 컬렉션에 TLS 지원을 추가하려면 다음 단계를 완료하세요:
-
기존 창 파일 시스템 컬렉션에 대한 처리 설정 페이지를 엽니다.
-
에이전트의 최신 버전을 설치하십시오.
상담원 설치하기 절차의 4단계부터 시작하여 TLS 지원 활성화 옵션 단계를 포함하여 단계를 완료합니다.
컴퓨터를 다시 시작하라는 마지막 단계는 완료하지 마세요.
-
텍스트 편집기에서
as.cfg
파일을 찾아서 연 다음 파일에 다음 줄을 추가합니다:agent_key_store=%ES_AGENT_NODE_ROOT%\tls.p12 agent_key_store_password=changeit
여기서
%ES_AGENT_NODE_ROOT%
은 Windows 에이전트 서버의 루트 디렉터리입니다. 예를 들어,agent_key_store="C:\Program Files\IBM\es\distributed\esadmin\tls.p12" agent_key_store_password=changeit
-
다음 명령을 사용하여 Windows 에이전트 서비스를 다시 시작합니다:
esagent stop esagent start