IBM Cloud Docs
使用智慧型文件理解 (SDU) 來改善搜尋結果

使用智慧型文件理解 (SDU) 來改善搜尋結果

在本指導教學中,您將使用 Discovery 服務的「智慧型文件理解」特性來建立使用者訓練的「智慧型文件理解 (SDU)」模型。 然後,您可以將單一文件分割成許多較小的文件,以便更容易找到某些類型的答案。

本指導教學同時適用於受管理及已安裝的部署。

學習目標

在完成本指導教學時,您將瞭解如何執行下列動作:

  • 在 Discovery中建立「文件擷取」專案。
  • 將 PDF 文件上傳至 Discovery 專案。
  • 使用「智慧型文件理解 (SDU)」工具來建立使用者訓練的 SDU 模型。
  • 將文件分割成較小且更易於使用的區塊。

持續時間

本教程約需 3 小時完成。

必備項目

  1. 開始之前,您必須先使用 IBM Cloud來設定付費帳戶。

    您可以免費完成本指導教學,方法是使用 Plus 方案,免費提供 30 天試用。 不過,若要建立服務的 Plus 方案實例,您必須具有付費帳戶 (在其中提供信用卡詳細資料)。 如需建立付費帳戶的相關資訊,請參閱 升級帳戶

  2. 建立 Plus 方案 Discovery 服務實例。

    移至 IBM Cloud 型錄中的 Discovery 資源 頁面,並建立 Plus 方案服務實例。

如果您決定停止使用 Plus 方案,且不想支付它的費用,請在 30 天試用期間結束之前刪除 Plus 方案服務實例。

建立文件擷取專案

建立一個專案。 選擇建立「文件擷取」專案類型。 此類型已最佳化,可用來尋找從大型文件傳回作為段落的回答。

如需專案類型的相關資訊,請參閱 建立專案

  1. 從 Discovery Plus 方案服務頁面中的 IBM Cloud,按一下 啟動 Discovery
  2. 「我的專案」頁面,按一下新專案
  3. 將專案命名為 Finance tutorial project,然後選取 文件擷取 專案類型。
  4. 下一步

您將在下一步中配置專案的資料來源。

上傳 PDF 檔案

我們希望搜尋應用程式能夠回答演算法交易的相關問題。 因此,我們新增 2020 年 8 月 5 日建立的「美國資本市場 Algorithmic Trading 員工報告」PDF,作為專案的資料來源。

  1. 取得 PDF 副本,以便您可以將它上傳至專案。 您可以從 美國證券交易委員會 網站下載檔案。

  2. 上傳資料 至您的集合。

  3. 按一下完成

    您只新增一個檔案。 在實際實務範例中,您可以上傳多個檔案,其中包含相同主題的相關資訊。 透過新增更多檔案,您可以擴充搜尋應用程式可運用的資訊範圍。

服務會上傳文件。 在上傳文件時,Discovery 會搜索資料並檢索索引鍵資訊。 因為您已建立「文件擷取」專案類型,Discovery 會記下它在搜索文件時找到並辨識的 實體 資訊。

檢閱文件

分析及檢索文件可能需要幾分鐘。 正在進行處理時,請檢閱來源文件,以取得其內容的感覺。 在使用「智慧型文件理解」工具來註釋文件之前,最好先瞭解您自己文件的結構。

「智慧型文件理解 (SDU)」使用視覺化影像技術來分析文字的格式和定位,以瞭解文件的結構。 您可以標示文件的區段 (例如子標題或表格),以教導 Discovery 辨識這些區段。 您也可以標示您要搜尋功能忽略的區段。 例如,您可能不想搜尋頁面標底或目錄資訊。 例如,在教導 SDU 工具辨識標底之後,您可以從索引中排除標底欄位。

  1. 開啟 活動 標籤,以監視收集處理的進度。

    從導覽畫面中按一下 管理集合

    從導覽畫面顯示「管理集合」功能表選項。
    從導覽面板管理收藏選單選項

    按一下 Algorithmic Trading PDF 集合磚。 集合即會開啟至「活動」標籤。

  2. 等待集合備妥時,開啟您先前下載的 Algo_Trading_Report_2020.pdf 檔案。

  3. 檢閱文件的結構。

    請注意,文件主要由下列結構組成:

    • 標題
    • 目錄
    • 字幕
    • 文字
    • 註腳
    • 參考書目
  4. SDU 工具除了 footnotesbibliography 之外,都有預先定義的標籤。 您將在稍後的程序中為這兩個文件結構建立新的欄位標籤。

當頁面顯示有一份文件可用時,即完成處理。

顯示已備妥的「活動」頁面。
顯示資料上傳完成的活動頁面

測試專案

  1. 完成搜索之後,請移至 改善及自訂 頁面。 從導覽畫面中,按一下 改善及自訂

  2. 搜尋 欄位中,輸入 When did the Flash Crash occur and why?

    會傳回下列段落作為回應:

    These could in turn generate systemic destabilizing market events, such as the May 2010 “Flash Crash.” The “Flash Crash” occurred on May 6, 2010, when an algorithm rapidly sold 75,000 S&P500 e-mini futures contracts.

    傳回的段落包含問題的正確答案。

    顯示搜尋所傳回的段落。
    搜尋結果

  3. 請提出另一個問題: What is the purpose of Rule 15c3-5?

    會傳回下列段落作為回應:

    mechanism.306 b. 15c3-5 In November 2011, the SEC implemented the final provision of Rule 15c3-5 curbing unfiltered market access. The provision mandated that brokers verify their clients’ order flow for compliance with credit and capital thresholds before routing to market centers

    同樣地,答案是準確的 (儘管段落開頭有一些多餘的文字)。

    在這兩個範例中,都會詢問一個有點複雜的問題,所傳回的段落會提供有效的回答。

    不過,並非每個問題都會傳回明確的答案。 接下來,我們嘗試一些查詢,以產生我們可能想要改善的答案。

  4. 輸入 Where do muni bond trades get reported to?

    在此情況下,回應不會完全回答問題。

    Post-trade transparency, in the form of transaction reports, generally is available for corporate and municipal bonds. 1. Transaction Reports in Corporate Bonds: TRACE Transactions in corporate bonds must be reported to the Trade Reporting

  5. 同樣地,搜尋查詢 What are PTFs? 不會傳回直接回答。

    Despite the surge in trading volume during the event window, there was no noticeable change in net positions of PTFs or bank-dealers. However, the report also finds evidence that some PTFs and bank-dealers may have contributed to the volatility

您的專案已順利回答部分問題。 每一個查詢只會傳回一個段落。 讓我們看看是否可以改善對這些更簡單的搜尋查詢提供的回應。

建立使用者訓練的智慧型文件理解 (SDU) 模型

若要改善搜尋結果的品質,請為此文件建置「智慧型文件理解」模型。 此模型協助 Discovery 瞭解文件結構。 然後,您可以指示 Discovery 要搜尋文件的哪些區段以及要忽略哪些區段。

  1. 從「改善及自訂」頁面的「改善工具」畫面中,展開 定義結構,然後按一下 新建欄位

    顯示「改善工具」畫面中的「新建欄位」工具。
    改進工具面板中的新欄位工具

  2. 即會顯示 識別欄位 標籤,您可以在其中選擇要使用的「智慧型文件理解」模型類型。

    顯示 Identify fields(識別欄位)標籤。
    識別字段選項卡

    • 預先訓練模型 會套用不可自訂的模型,以擷取文字並識別表格、清單及區段。 預先訓練的模型是節省時間的最佳選擇。
    • 基於本指導教學的目的,我們想要在其中探索「智慧型文件理解」工具如何運作,我們將選擇使用 使用者訓練模型

    如果您未選擇模型,則會自動套用 文字擷取 模型。 使用文字擷取模型,大部分文件內容會被視為標準文字,並在 text 欄位中檢索。

  3. 按一下 使用者訓練模型,然後按一下 提交

    在您選擇使用者訓練模型選項之後,顯示確認對話框。
    使用者訓練模型的確認對話框

  4. 按一下套用變更並重新處理

    顯示「套用變更並重新處理」按鈕處於作用中。
    套用變更並重新處理按鈕

    評估程序完成之後,文件的表示法會顯示在「智慧型文件理解」工具中。

    顯示在 SDU 工具中顯示的 PDF。
    PDF在SDU工具中顯示

    此工具會顯示原始文件的視圖,以及文件的表示法,其中文字會取代為區塊。 區塊代表欄位類型。

    一開始,區塊都是 text 欄位標籤的顏色,因為所有文件內容都被視為標準文字,將在 text 欄位中編製索引。

    欄位標籤 清單會顯示可用的預先定義欄位標籤。

    我們將使用對應的欄位標籤來標示區塊,這些區塊代表特定類型的資訊,例如標題和子標題。 (使用標籤來識別文件結構不同部分的程序稱為 註釋 文件。)

  5. 若要註釋文件,請先按一下標籤。 然後,按一下您要標示的文字區塊。

    欄位標籤 清單中按一下 title,然後在文件表示法中,按一下位於文件標題位置的黃色區塊。

    顯示在 SDU 工具中標示的標題。
    智慧型文檔理解工具中正在標記標題

    您已順利標示文件的標題!

  6. 頁面上的其餘文字可以編製索引,成為 text 欄位的一部分。 因此,請按一下 提交頁面

  7. 下一頁是文件的 目錄。 按一下 table_of_contents 標籤,然後選取頁面上的所有文字來標示它。 (您可以按一下並拖曳滑鼠來全選。) 按一下 提交頁面,以移至下一頁。

    顯示 SDU 工具中所標示的目錄。
    智慧型文檔理解工具中正在標記目錄

  8. 頁面上的兩個標題是子標題。 按一下 subtitle 標籤,然後選取標題。

    此頁面有註腳。 正如我們先前指出的,該檔案有許多腳註,其中提供了一些重要資訊。 讓我們為註腳加上標籤,以便稍後可以包括或排除此類型的資訊。 沒有註腳標籤,因此我們必須新增一個。

  9. 欄位標籤 清單中,按一下 建立新的項目。 新增名稱 footnote 作為標籤名稱。 反覆地按一下顏色區塊,直到您找到要用於標籤的唯一顏色,然後按一下 建立

    顯示新的標籤對話框。
    新標籤對話框

  10. 按一下您新增的註腳標籤,然後以標籤標示頁面上的註腳。 按一下 提交頁面,以移至下一頁。

    顯示 SDU 工具中正在標示的註腳。
    智慧型文檔理解工具中正在標記註腳

  11. 重複此處理程序,以標示並提交多個頁面。

    對於大部分頁面,內容包括 subtitlefootnote,且頁面上的大量內容仍標示為 text

    顯示正在 SDU 工具中套用至頁面的子標題、註腳及文字標籤。
    正在應用副標題、腳註和文字標籤

    當您標示及提交頁面時,模型會從您所做的註釋中學習。 逐漸地,自動套用的標籤會變得精確,且不需要任何調整。

    如果工具過度熱衷套用標籤,請將 text 標籤套用至標準文字的區段,以更正它。

  12. 若為表格,請選取表格標題及整個表格,並使用 table 標籤來標示它們。

    顯示如何在 SDU 工具中標示表格。
    一張桌子正在被標記

  13. 當頁面包含影像時,該影像不會顯示在頁面的表示法中。

    永不抄寫映像檔。 不過,您可以從影像擷取文字,以便可以搜尋影像文字。 若要這樣做,請在建立集合時啟用「光學字元辨識 (OCR)」特性。 如果您想要從影像中擷取文字 (例如從掃描的 PDF 中,其中文字內嵌在影像中),則 OCR 會很有用。 如需相關資訊,請參閱 光學字元辨識

    啟用 OCR 之後,如果您想要從集合索引中移除已註釋的影像文字,則可以為影像加上標籤,以便可以排除相關聯的文字。 您將瞭解如何在下一個程序中配置索引。

    顯示頁面中的影像。
    在頁面中顯示圖像

  14. 當您到達 參考書目時,請建立名為 bibliography 的新標籤。

    顯示如何建立參考書目標籤。
    建立參考書目標簽

    將新標籤套用至每一個頁面。

    顯示正在套用至整個頁面的參考書目標籤。
    正在套用參考書目標簽

  15. 在您註釋並提交所有頁面之後,請按一下 套用變更並重新處理

    會顯示通知,說明已更新收藏集。 您仍留在 SDU 工具頁面上,但已停用 套用變更並重新處理 按鈕。

SDU 模型是根據您在此文件中所標示的結構產生的。

如需「智慧型文件理解」特性的相關資訊,請參閱 使用智慧型文件理解

簡化可搜尋資料

既然您有 SDU 模型可辨識文件中不同類型的區段,您可以指示它在搜尋中併入部分區段,並排除其他區段。 若要控制要搜尋哪些資料,您可以在搜尋索引中併入或排除欄位。

  1. 按一下 管理欄位

    顯示在 SDU 處理之後要按一下的「管理欄位」標籤。
    管理字段選項卡

  2. 從要檢索的欄位清單中,針對除下列欄位以外的所有欄位,將切換器設為 No:

    • footnote
    • html
    • subtitle
    • table
    • text

    顯示要索引清單的欄位
    索引清單中的欄位

  3. 按一下套用變更並重新處理

    會顯示通知,說明已更新收藏集。 您會保留在「管理欄位」頁面上,但會停用 套用變更並重新處理 按鈕。

您已順利配置索引來控制可供搜尋的內容! 您已排除可能包含熱門搜尋詞彙的欄位,但也未包含有意義的內容。

如需管理欄位的相關資訊,請參閱 從查詢結果排除內容

分割文件

既然 Discovery 已進一步瞭解文件的結構,我們可以將單一 99 頁文件分割成更多文件。 請記住,您之前提交的每一個查詢只會傳回一個段落。 如果我們將文件分割成多個區段,Discovery 可以傳回所有文件區段之間的最佳段落。

當您分割文件時,會將一個文件轉換為許多文件。 請注意方案類型的文件限制。 透過分割文件所產生的每一個文件區段,都會計入計劃的文件限制。

當您註釋文件時,您已識別 subtitle 欄位。 這些子標題是每一個新文件區段可以開始的良好標記。

  1. 從「管理欄位」頁面的 透過分割文件來改善查詢結果 區段中,按一下 分割文件

  2. 分割每一個出現項目的文件 欄位中選取 subtitle

    顯示從分割文件欄位中選取的副標題欄位
    選擇在副標題欄位上分割文件

  3. 按一下套用變更並重新處理

    會顯示通知,說明已更新收藏集。 您會保留在「管理欄位」頁面上,但會停用 套用變更並重新處理 按鈕。

  4. 從頁面標頭中按一下 活動,以回到「活動」頁面,您可以在其中監視所做變更的進度。

當沒有文件正在處理時,文件分割已完成。

如需分割文件的相關資訊,請參閱 分割文件使查詢結果更簡潔

重新測試專案

讓我們瞭解我們是否透過為文件新增使用者訓練的 SDU 模型來改良搜尋功能。 若要這樣做,讓我們重新測試專案。

  1. 從導覽畫面中,按一下 改善及自訂,以開啟「改善及自訂」頁面。

  2. 首先,為了確保我們不會降低搜尋品質,讓我們先詢問在我們之前測試時傳回良好回應的其中一個問題。

    搜尋 欄位中,輸入 What is the purpose of Rule 15c3-5?

    顯示正在「改善及自訂」頁面中輸入的查詢。
    查詢新增至改進和自訂頁面

    這次會傳回多個回應。 下列回應包含問題的確切答案,不含任何額外文字:

    In November 2011, the SEC implemented the final provision of Rule 15c3-5 curbing unfiltered market access. The provision mandated that brokers verify their clients’ order flow for compliance with credit and capital thresholds before routing to market centers.

    顯示針對查詢傳回多個回應。
    查詢傳回多個回應

    我們的更新項目只會改良之前所傳回之正確回應的品質。

  3. 現在,讓我們先問一個先前傳回不良結果的問題。 輸入 What are PTFs? 作為搜尋查詢。

    會重新傳回作為前次唯一回應傳回的相同回應。 不過,這次我們得到不止一個回應。 我們可以看到傳回的第二個回應定義了我們的字首語。

    (“principal trading firms” or “PTFs”)

    顯示傳回以回答 PTF 相關問題的回應。
    回答有關 PTF 問題的回應

  4. 讓我們嘗試其他有問題的搜尋查詢。 輸入 Where do muni bond trades get reported to? 作為搜尋查詢。

    這次是第三個提供問題答案的回應。 您必須檢視完整段落,才能查看整個定義。

    顯示傳回以回答 Muni 債券相關問題的回應。
    回答有關市政債問題的回應

    按一下 檢視文件中的段落 鏈結,以查看文件中強調顯示的完整定義。

    Transactions in municipal bonds must be reported to the Municipal Securities Rulemaking Board’s (MSRB) Real-time Transaction Reporting System (RTRS).

恭喜! 您已順利新增使用者訓練的「智慧型文件理解 (SDU)」模型,以改善搜尋專案的品質。

使用字典型資料類型過濾結果

現在我們在每個查詢中傳回更多段落,過濾結果可能很有用。 若要根據所提及的金融工具類型來過濾結果,我們可以新增搜尋資料類型。 資料類型的一個可用來源是字典。

  1. 若要建立字典,請從「改善及自訂」頁面的「改善工具」畫面中,展開 Tach 網域概念,然後按一下 字典

  2. 按一下新建

    在字典頁面中顯示「新建」按鈕。
    字典頁面新增按鈕

  3. 輸入 Financial instruments 作為字典名稱,新增術語 municipal bond,然後按一下 新增術語 按鈕。

    顯示具有一個術語的「金融工具」字典。
    包含一個術語的金融工具詞典

  4. 按一下術語的編輯圖示,以新增術語的同義字。

    Municipal Bonds, muni, munis, muni bonds
    

    在以逗點區隔的清單中新增同義字,然後按一下 儲存術語

  5. 按一下儲存字典

    您可以在文件中選擇要套用強化的欄位。 讓我們選擇在建立使用者訓練的 SDU 模型時產生的 subtitle 欄位。 從 要強化的欄位 欄位中,選取 subtitle。 按一下套用

    即會建立字典,並分析文件中每一個子標題,以找出字典中所定義術語或同義字的提及項目。 任何找到的提及項目都會記錄在索引中。

  6. 從導覽畫面中按一下 改善及自訂

  7. 從「改善及自訂」頁面的「改善工具」畫面中,展開 自訂顯示畫面,然後按一下 資料類型

  8. 按一下新面,然後選擇從集合中的現有欄位

  9. 選擇與套用至 subtitle 欄位的字典強化相關聯的索引欄位。 從 欄位 欄位中,選取 enriched_subsection.entities.mentions.text

    顯示資料類型欄位的選項。
    您可以從中建立構面的欄位

    您可能需要將游標移至項目上方,才能查看完整欄位名稱。

  10. 將標籤 (例如 Dictionary terms ) 新增至 標籤 欄位,然後按一下 套用

    顯示已完成的資料類型建立畫面。
    方面已建立

  11. 輸入 Where do muni bond trades get reported to? 作為搜尋查詢。

    您建立的 字典詞彙 資料類型會隨搜尋結果一起顯示。 會顯示 Municipal Bonds 勾選框,指出從文件區段中至少擷取一個傳回的段落,且其 subtitle 欄位中具有術語 Municipal Bonds

    顯示具有「市政債券」選項的「字典術語」資料類型。
    具有市政債券選項的字典術語方面

  12. 若要過濾結果以僅顯示子標題中具有 Municipal Bonds 之區段的段落,請選取 Municipal Bonds 勾選框。

    現在將最佳答案列為第二個回應,而不是第三個回應。

    現在最佳答案被列為列表中的第二個結果
    最佳答案是第二個結果

摘要

在本指導教學中,您已建立「文件擷取」專案、「智慧型文件理解 (SDU)」模型、字典強化及搜尋資料類型。 您已將基於字典的資料類型套用至 SDU 模型所產生的自訂欄位,以過濾查詢結果來取得更好的回答。