此文件適用於 IBM Watson® Knowledge Studio on IBM Cloud®。 若要查看舊版 Knowledge Studio on IBM Marketplace 的文件,請按一下此鏈結。
新增文件以進行註釋
若要訓練機器學習模型,您必須將包含主題知識的文件(例如,日誌登載文章或其他業界特定的文字)新增至您的工作區。
關於此作業
本節說明如何僅針對註釋新增文件。 若要定義以規則為基礎之模型的規則,您可以新增或上傳可從中繪製型樣以定義為規則的文件。 如需相關資訊,請參閱新增文件以定義規則。
文件
若要訓練機器學習模型,您需要收集代表您領域內容的文件,以及對您的應用程式有高價值的文件。
嘗試確保您的訓練文件確實代表您領域感興趣的內容;亦即,其包含許多可以註釋的相關提及項目。 若要選擇最佳文件,請遵循下列準則:
- 努力提供一組大小總計約為 300,000 個單字的文件。 對複雜的類型系統提供更多單字,而對較簡單的類型系統則提供較少單字。
- 將每一份文件的內容限制為一或兩個頁面(少於 2,000 個單字,每份文件接近 1,000 個單字是最好的)。 在模型開發的早期階段中,讓每一份文件保持為少數幾個段落也是一種很好的作法。 註釋人員可以在長文件中標示提及項目和關係,但嘗試標示跨多個頁面的互相參照則不是聰明的作法。
- 請確定文件中的資料分佈在所有可能的實體類型、子類型和角色,以及它們之間的關係。 要達成的目標是最後在文件集合中,每一個實體類型至少有 50 個註釋,而每一個關係類型有 50 個註釋。
- 同樣地,文件應該代表應用程式所涵蓋之主題範圍的幅度,但如果實體類型及關係類型的出現頻率不準確,請嘗試取得每一個類型至少 50 個範本,對於其提及項目傾向詞組的實體類型,則需要更多。
- 您為了訓練而建立的文件集必須至少包含 10 個已註釋的文件。
當您準備好建立及訓練模型時,您新增至工作區的文件可分成幾個文件集,作為訓練資料、測試資料及盲目資料。 個別的資料集對於評量模型效能而言十分重要。
您可以使用下列方式來新增文件。 如需所支援文件類型、大小限制及其他資訊的相關資訊,請參閱建立工作區 > 輸入、輸出及限制的摘要。
- UTF-8 格式的雙直欄 CSV 檔
- UTF-8 格式的文字檔
- HTML 檔案
- PDF 檔案(不支援掃描及有密碼保護的檔案)
- Microsoft Word DOC 或 DOCX 檔案(不支援有密碼保護的檔案)
- 包含從 Knowledge Studio 工作區下載之文件的 .zip 檔
- 包含 UIMA CAS XMI 格式檔案的 .zip 檔
CSV 檔
您可以從本端機器中,上傳包含範例文字的雙直欄 CSV 檔。 一次上傳一個 CSV 檔。 CSV 檔中的第一個直欄指定文件的檔名。 檔案中的第二個直欄包含文件文字。 如需所需格式的範例,請參閱 documents-new.csv
指導教學範例檔案中的 檔案。
PDF 檔案
在某些情況下,無法從 PDF 中擷取文字,具體取決於 PDF 的建立方式。 通常,無法從未對映到 Unicode 字元的內嵌字型中擷取文字。 如果您不確定是否可以擷取 PDF 中的文字,可以嘗試複製 PDF 中的文字,然後將其貼入文字編輯器中。 如果您看到的字元與 PDF 本身顯示的不同,則文字擷取可能會失敗。
格式化文件
格式化文件轉換為純文字時,格式的遺失可能會導致字組的記號化質量差。 例如,如果 DOCX 檔案中的表格列包含不以句點結尾的資料格值,則這些值可能會轉換為一個句子。 另一個例子是,如果 PDF 文件包含行尾加上連號的超長字組,則該字組可能會轉換為兩個字組。 在這種情況下,除非對檔案進行預先處理以修正格式限制,否則文件可能不適合用於機器學習。
其他 Watson Knowledge Studio 工作區中的文件
如果您先前已從 Knowledge Studio 工作區下載文件,則可以上傳您所下載的 .zip 檔。 有一個選項可讓您指定是否要將基準註釋包含在匯入的檔案中。
註釋文件之後,已註釋的文件會以 JSON
格式儲存。 這些檔案中的標記語言(顯示如何剖析原始文件文字及進行記號化)包括註釋人員新增的所有註釋的元素。 為了隨時間變化改善模型正確性,您可以將這些檔案上傳至另一個工作區,從而保留所有現有註釋。 註釋人員可以修訂、刪除及新增註釋到這些文件中,或者您可以略過人工註釋,並使用這些檔案來建立訓練、測試及盲目文件集,以評估與改善模型效能。
UIMA CAS XMI 檔案
若要協助訓練模型,您可以上傳由 UIMA 分析引擎預先註釋的文件。 預先註釋的檔案必須為「UIMA 共用分析結構」的 XML 序列化 (UIMA CAS XMI)」格式,並結合成 .zip 檔。 例如,您可以上傳在 IBM Watson Explorer 集合中註釋的文件。
註釋人員可以修訂、刪除及新增註釋到這些文件中,或者您可以略過人工註釋,並使用這些檔案來建立訓練、測試及盲目文件集,以評估與改善模型效能。 如需如何建立這些檔案以及上傳它們的需求的相關資訊,請參閱上傳預先註釋的文件。
匿名資料
如果您要建置針對資料最佳化的模型,但基於隱私權原因不要將資料以現狀上傳至 Knowledge Studio,您可以先刪除文件中的任何個人識別資訊 (PII),然後使用那些匿名文件來訓練模型。 請不要編寫資訊,或以變數進行大規模取代。 為得到最佳結果,請將實際資訊取代為相同類型的偽造資訊。
例如,如果您要保護的 PII 是當事人名字,則以使用各種一般名稱語法樣式的偽造名字(例如 Jane Doe、Mr . Smith、Dietrich 或 Dr . Jones, PhD)來取代每一個名稱,而不要編寫每一個名字或以變數(例如 USER_NAME)來取代每個名字。 請考慮撰寫一個 Script 來連結各種名字和姓氏、職稱和姓氏,以及單獨新增姓氏,以建立可插入至文件的偽造名稱,來取代真實使用者名稱的實例。 目標是儘可能模擬來源文件中的可能實際值。 如果文件中使用相同的文字 (USER_NAME) 或者文字已經過編寫,則您基本上會訓練模型,預期所有名稱都具有該相同值或者都已經過編寫。 在運行環境於新文件上使用模型,並發現之前從未見過的名稱以其所有變異形式出現時,您會希望模型能夠將這些名稱辨識為名稱。
將文件新增至工作區
若要訓練模型,您必須將代表您領域內容的文件新增至工作區。
關於此作業
作為最佳作法,請以相對較小的文件集合開始。 使用這些文件來訓練註釋人員(如果您的工作區包括人工註釋),以及修正註釋準則。 小型文件可協助註釋人員識別整個文件中的互相參照鏈結。 隨著註釋正確性的改善,您可以將更多文件新增至語料庫,以提供更深入的訓練工作。
程序
若要將文件新增至工作區,請執行下列動作:
-
以 Knowledge Studio 管理者或專案經理身分登入,並選取您的工作區。
-
選取資產 > 文件 > 文件集標籤。
-
按一下上傳文件集,將文件新增至語料庫。
-
上傳下列其中一種受支援格式的文件。 如需所支援文件類型、大小限制及其他資訊的相關資訊,請參閱建立工作區 > 輸入、輸出及限制的摘要。
從其他工作區下載的文件 .zip 檔的注意事項
匯入已註釋文件時,會對其重新記號化。 此處理程序可能會變更 Knowledge Studio 所認為的句子界限。 因為註釋是由句子所定義,所以在這個程序期間,部分註釋可能會失效。 從另一個工作區上傳文件之後,請快速檢閱註釋,以解決所有不相符問題。
- 如果您先前從 Knowledge Studio 工作區下載文件,請拖曳包含已下載文件的 .zip 檔,或者按一下以找到並選取該檔案。 如果您要在下載文件之前包含已新增至文件的註釋,確定先選取包括基準的選項,再按一下上傳。 只會匯入在下載文件之前已提升成基準的註釋。
- 您必須先將類型系統從原始工作區上傳至現行工作區,才能上傳基準註釋。 如需相關資訊,請參閱從其他工作區上傳資源。
UIMA CAS XMI 格式文件 .zip 檔的注意事項
- 如果您先前已下載格式為 UIMA CAS XMI 的已註釋文件,則可以上傳包含已分析內容的 .zip 檔。 先指定這是您要上傳的內容類型,然後再按一下上傳。 如需如何建立這些檔案以及上傳它們的需求的相關資訊,請參閱上傳預先註釋的文件。
-
新增文件之後,按一下文件名稱以進行預覽,並驗證內容正常。 例如,驗證文字檔是 UTF-8 格式,且文件中看不見任何讀音標記或字元正規化問題,並檢查不良的句子岔斷。 如果發生問題,您可能需要先預先處理這些檔案,然後再將它們新增至語料庫。 在字典或人工註釋開始之前,您會希望文件儘可能乾淨且完整格式化。
下一步
在您啟動任何人工註釋作業之前,請將語料庫分成多個文件集,並將這些文件集指派給註釋人員。
管理者和專案經理可以直接註釋文件集,而無需建立註釋作業。
刪除文件
如果您判定文件不代表會讓模型受益的標準產業文字,則可以刪除該文件。
若要刪除文件,請選擇適用於您狀況的選項:
刪除尚未與註釋作業相關聯的文件
如果您要刪除的文件未與註釋作業相關聯,請完成下列步驟來刪除文件。
程序
以 Knowledge Studio 管理者身分登入,並選取您的工作區。
- 選取資產 > 文件 > 文件集標籤。
- 選取包含您要刪除之文件的文件集。 即會開啟文件集。
- 尋找您要移除的文件,然後按一下刪除。
刪除與註釋作業相關聯且人工註釋尚未開始的文件
如果您要刪除的文件與註釋作業相關聯,且人工註釋尚未開始,請完成下列步驟來刪除文件。
程序
-
以 Knowledge Studio 管理者身分登入,並選取您的工作區。
-
刪除註釋作業:
- 開啟機器學習模型 > 註釋頁面。 按一下註釋作業標籤。
- 尋找與文件相關聯的註釋作業、按一下作業上的顯示功能表圖示,然後按一下刪除。
-
依刪除尚未與註釋作業相關聯的文件所述刪除文件。
-
在刪除文件之後,請重建註釋作業並建立與相同的註釋集的關聯,現在其中有一個較少的文件。
刪除與註釋作業相關聯且人工註釋已開始的文件
如果您要刪除的文件與註釋作業相關聯,且人工註釋已開始,請完成下列步驟來刪除文件。
如果人工註釋進行中,請不要刪除作業,否則您將會遺失進行中的工作。
程序
- 告訴註釋人員忽略註釋集中不需要的文件。
- 在其他文件上完成所有註釋工作,而且註釋人員提交所有文件,以將註釋集新增至基準之後,請檢閱並接受提交的文件。
- 解決所有註釋衝突。
- 當所有文件是基準的一部分,且作業完成時,請依刪除與註釋作業相關聯且人工註釋尚未開始的文件所述刪除作業。
- 依刪除尚未與註釋作業相關聯的文件所述刪除文件。
您可以下載文件集,並檢閱 gt
資料夾中的文件,來確認其餘文件上的註釋並未遺失。
資料模型
本主題中的圖表彙總 Knowledge Studio 系統中的文件流程,以及語料庫中文件、註釋作業及基準之間的差異。
語料庫包含文件,其分割為文件集:
- 文件只是文字的字串。
- 文件集是一組文件的指標。 文件集不包含文件本身的副本。
- 部分文件集可以指向單一文件,這個設定可以透過在建立註釋集時所指定的重疊參數來進行控制。
圖 1. 此圖說明兩個指向三個文件的文件集。 文件會在這些集合之間進行劃分。
基準包含新增至文件的註釋(陳述、關係及互相參照的提及項目)。 對於每一個文件而言,基準都是獨特的。
圖 2. 此圖說明基準包含新增至文件 1、文件 2、文件 3 等的註釋。
當您建立註釋作業時,會為您新增至作業的註釋集中的每一個文件建立註釋副本。 註釋人員會註釋文件。 這些註釋彼此隔離,並與基準隔離。 註釋作業是一個暫存概念,存在的目的是要容許註釋人員在隔離的空間中註釋文字。 相反地,基準是永久且獨特的。
圖 2. 此圖說明專案經理建立註釋集並將它們指派給註釋作業。 註釋人員 Dave 及 Phil 會對文件集中指派給他們的文件進行註釋。
專案經理在註釋作業中核准註釋集之後,未與其他註釋集重疊之文件中的註釋會變成基準。 對於在註釋集之間重疊的文件(在本範例中以文件 2 表示),專案經理必須裁定並解決衝突。 重疊文件中的註釋不會變成基準,除非透過裁定獲得核准。
然後,基準用來訓練及測試機器學習模型,或者可作為下一個模型開發反覆運算的基礎。 若要在新的反覆運算中使用基準,您必須建立新的註釋作業。
圖 3. 此圖說明兩個註釋人員所新增的註釋如何成為基準。 兩位註釋人員同時註釋一個文件(標籤為文件
2)。 此重疊文件中的註釋必須先經過裁定才能變成基準。