IBM Cloud Docs
建立字典

此文件適用於 IBM Watson® Knowledge Studio on IBM Cloud®。 若要查看舊版 Knowledge Studio on IBM Marketplace 的文件,請按一下此鏈結

建立字典

字典可協助 Knowledge Studio 機器學習模型瞭解領域的語言。

字典

在機器學習中,字典會將有某種相同處的單字及詞組分組在一起。 字典中的項目不表示項目中的所有單字都有相同意義,而是表示模型會將這些單字以相等方式對待。

字典是單字或詞組的清單,對於資訊擷取目的而言,這些單字與詞組是相等的,這表示為了識別實體與關係提及項目,它們是可互換的。

考量此範例:一個字典項目包含一週中的七天。 為了註釋文件,註釋人員會將實體類型 DAY_OF_WEEK 指派給文字中 MondayFriday 的提及項目。 因為字典將一週中的七天視為相等,這有助於確保機器學習模型在執行時,會在未被看見的文件中,正確註釋出現的 TuesdayWednesday 及一週中的其他幾天。 此外,將這些單字視為相等也有助於在周圍文字進行資訊擷取。 機器學習模型會從訓練範例中學習到接近 MondayFriday 的文字,可套用到機器學習模型在一週中其他幾天附近看到的文字,因為字典聲明,基於資訊擷取目的,這些術語是相等的。

**附註:**您不需要建立包含星期幾資訊的字典。 應用程式中已內建數個類似這樣的一般用途字典。 其他內建字典包括國家/地區、地名、數字、動物、植物、疾病、度量單字(例如,盎司公尺)及稱呼頭銜單字(例如,先生太太)。 您無法停用或編輯內建的字典。

請避免新增具有多重意義的項目。 例如,在賽車領域中,包括 bank 一詞很合理,它是指一項道路特徵,但前提是在該文字中未同時經常討論金融機構。 如果該單字的這兩種意義經常出現在來源文件中,則最好將它排除在這兩種類型的字典之外:與道路特徵相關聯的字典,以及與金融機構相關聯的字典。

您可以透過手動新增個別項目,在 Knowledge Studio 中建立字典。 Knowledge Studio 也支援上傳數種類型的字典檔。

如何使用字典?

字典有幾種使用方式,全部都是選用性的。 機器學習模型會使用它們來提供基於資訊擷取目的而相等的單字或詞組,並在預先註釋期間用來引導註釋工作。

  • 機器學習用法

    與字典相關聯的實體類型不會用來定義機器學習模型的規則。 機器學習會獨立地評估文件中的提及項目。 並不會因為提及項目符合字典中與某特定實體類型相關聯的項目,就假設該提及項目具有特定實體類型。 它確實會將該資訊納入考量,但是會將它視為透過語言分析所收集眾多資訊當中的一項資訊。 事實上,如果字典中沒有任何術語出現在基準文件中,則機器學習模型完全不會使用該字典。

  • 預先註釋用法

    字典對下列預先註釋程序非常重要。

    • 字典預先註釋程式:當您執行字典預先註釋程式時,請建立字典與類型系統中之實體類型的關聯。
    • 以規則為基礎的模型:您可以選擇性地建立字典與規則類別的關聯。 然後,在您執行以規則為基礎的模型來預先註釋文件時,類別即會對映至類型系統中的實體類型。 因此,雖然迂迴,但對於以規則為基礎的模型而言,字典術語也會對映至實體類型。

    在這兩種情況下,字典都會提供術語,供系統尋找並註釋為提及項目。 它會將與包含該術語之字典相關聯的實體類型,指派給每一個提及項目。 當註釋人員開始處理已預先註釋的新文件時,許多提及項目都已根據字典項目註釋完成。 因此,註釋人員有更多的時間可以專注在將實體類型指派給需要更深入分析的提及項目。

語言考量

  • 對於巴西葡萄牙文、英文、法文、德文、義大利文及西班牙文,Knowledge Studio 目前不提供選項來指定不區分大小寫的字典比對,但字典項目會符合有較多大寫的文字。 例如,字典中的 vehicle 會符合文字中的 vehicleVehicleVEHICLE,而字典中的 Sat 會符合文字中的 SatSAT,但不符合 sat
  • 對於日文及韓文,在預先註釋期間的字典比對會區分大小寫。
  • 對於阿拉伯文,Knowledge Studio 假設阿拉伯文字儲存時未定型,並會將數值定型視為儲存空間層次的內容。 如需 Knowledge Studio 如何處理阿拉伯文字元定型及數值定型的詳細資料,請參閱配置阿拉伯文的支援

CSV 檔字典

亦稱為標準字典格式,該字典採用以逗點區隔值 (CSV) 格式,您在上傳這個檔案之後可以進行編輯。 您可以上傳的 CSV 檔大小上限為 1 MB。 如果您有較大的字典檔,請將大型檔案分成多個檔案,一次將一個檔案上傳到 Knowledge Studio 工作區的單一字典。

總而言之,需求就是您必須使用文字編輯器來建立 CSV 檔,而非使用像 Microsoft Excel 這類的軟體,而且檔案必須使用 UTF-8 編碼,在文字串流的開頭不要包括位元組順序標記 (BOM)。 檔案中的第一列必須指定下列直欄標頭:

lemma,poscode,surface

檔案中的其餘行會指定字典項目,其中:

  • 詞目 (lemma)

    指定項目最具代表性的單字形式。

  • poscode(阿拉伯文、巴西葡萄牙文、英文、法文、德文、義大利文及西班牙文)

    指定識別詞性的代碼。 字典註釋程式會使用此詞性資訊來協助進行句子記號化。

    • 0 - 不明

      附註: 此程式碼支援下列實務範例: 您想要上傳機器產生的大型字典,其中每一個項目中不包含詞性資訊。 依預設,您可以將不明 指派給所有項目。 請儘可能避免使用此代碼。

    • 1 - 代名詞

    • 2 - 動詞

    • 3 - 名詞

    • 4 - 形容詞

    • 5 - 副詞

    • 6 - 介系詞

    • 7 - 感嘆詞

    • 8 - 連接詞

    • 9 - 限定詞

    • 10 - 量詞

    在英文中,名詞 (3)、動詞 (2) 及形容詞 (4) 是字典項目最常用的詞性。

    附註: 詞性不會自動決定提及項目的類型。 請勿假設所有名詞都相等於實體類型提及項目,而所有動詞都相等於關係類型提及項目。 例如,American 是一個形容詞,但可能最好註釋為實體類型 GPE(地理實體)或 PERSONMet 是一個動詞,但可能最好註釋為 EVENT_MEETING

    在其他使用複合字的語言(例如德文)中,詞性資訊的正確性對於協助判斷單字界限而言更為重要。

  • poscode(中文)

    指定識別詞性的代碼。 在不使用空格來表示單字界限的語言中(例如,簡體中文及繁體中文),詞性值對於文字記號化及預先註釋而言十分重要。

    • 32 - 名詞
    • 31 - 名詞(姓氏)
    • 35 - 名詞(組織)
    • 34 - 名詞(其他)
    • 33 - 名詞(人名)
  • poscode(日文)

    指定識別詞性的代碼。 在不使用空格來表示單字界限的語言中(例如,日文),詞性值對於文字記號化及預先註釋而言十分重要。

    • 19 - 名詞
    • 23 - 一般字首
    • 24 - 一般字尾
    • 140 - 專有名詞(姓氏)
    • 141 - 專有名詞(名字)
    • 146 - 專有名詞(人名)
    • 142 - 專有名詞(組織)
    • 144 - 專有名詞(地名)
    • 143 - 專有名詞(地區)
    • 145 - 專有名詞(其他)
  • poscode(韓文)

    指定識別詞性的代碼。 在不使用空格來表示單字界限的語言中(例如,韓文),詞性值對於文字記號化及預先註釋而言十分重要。

    • 10010 - 名詞
    • 10300 - 專有名詞(姓氏)
    • 10310 - 專有名詞(名字)
    • 110360 - 專有名詞(人名)
    • 10320 - 專有名詞(組織)
    • 10340 - 專有名詞(地名)
    • 10330 - 專有名詞(地區)
    • 10350 - 專有名詞(其他)
  • 顯現

    指定相等的術語(也稱為表面形式)。 以表面形式重複此詞目,並使用逗點來區隔多個表面形式。 如果表面形式包括逗點,請將表面形式含括在引號中。

例如:

lemma,poscode,surface
IBM,3,IBM Corp.,IBM,"International Business Machines, Inc."
Department of Energy,3,DOE,Department of Energy
premium,4,premium,premium-grade

相關概念

從另一個工作區上傳資源

相關作業

以字典預先註釋文件

將字典新增至工作區

新增字典是建立模型時的選用步驟。 字典很有用,因為它們可讓您快速開始註釋程序。

關於此作業

如果您提供字典,則可以對文件執行字典預先註釋程式。 預先註釋程式會尋找位於您字典中的術語,並自動註釋它們。 對文件執行這次初始作業回合會簡化註釋人員的工作,因為她可以檢閱預先註釋程式所新增的註釋,並予以更正或新增。 她不需要整個從頭開始。

下列限制適用於字典:

  • 每個字典最多 15,000 個項目

    附註: 此限制不適用於您上傳為字典 CSV 檔案的字典。 唯讀字典可包含更多項目。

  • 每個工作區最多 64 個字典

程序

若要將字典新增至您的工作區,請執行下列動作:

  1. 以 Knowledge Studio 管理者或專案經理身分登入,並開啟資產 > 字典頁面。

  2. 執行下列其中一個作業:

    • 建立字典按鈕旁邊,按一下功能表圖示,然後選取上傳字典。 選取字典,然後按一下上傳。 上傳字典之後,請選取它來檢視字典,並建立其與實體類型的關聯。

    您可以上傳 ZIP 檔,其中包含從其他 Knowledge Studio 工作區下載的字典。 您必須先上傳從其他工作區下載且格式為 JSON 的類型系統,然後才能上傳對應的字典檔。 您可以在從其他 Knowledge Studio 工作區重複使用的字典中編輯及新增項目。 如需詳細資料,請參閱上傳來自其他工作區的資源

    也支援上傳 CSV 檔,但是直接將它上傳為字典的話,會建立僅限預覽的字典,您無法進行編輯或下載。 若要上傳您可以編輯並下載的 CSV 檔,請按一下建立字典,先建立空的字典,然後再將 CSV 內容上傳為新建立字典的項目。

    • 按一下建立字典按鈕來建立空的字典,以便後續新增字典項目。 指定字典的敘述性名稱,然後按一下儲存
  3. 若要新增項目至字典,請執行下列其中一個作業:

    • 按一下新增項目來新增字典項目。 指定 lemma(術語最具代表性的單字形式)。
    • 按一下上傳以上傳包含字典項目的 CSV 檔,然後瀏覽以選取該檔案。 CSV 檔必須小於 1MB。
    • 項目建議窗格提供的清單中,新增建議項目。 Knowledge Studio 使用工作區中的文件以及字典中的現有項目來建議新的項目。
  4. 上傳或新增項目之後,您可以編輯項目。

    開啟項目以指定稱為表面形式 的相等術語。 每一個表面形式的長度都必須為 256 個字元以下。 您可以變更用來作為詞目的表面形式。 例如,詞目 IBM 可能有類似 IBM Corp.International Business Machines, Inc. 的表面形式。

  5. 針對字典中的每一個詞目及表面形式,選取適當的詞性。

    記號器會在預先註釋期間使用詞性資訊。

  6. 按一下儲存以儲存您的變更。

下一步

執行預先註釋程式,它會使用您建立的字典來執行來源文件的初步作業回合,並在其中新增註釋。

新增字典建議

當您將項目新增至字典時,Knowledge Studio 會在工作區中搜尋可能對您有用的類似字典項目的文件。

  • 您需要在Documents標籤中上傳文件,以取得建議。
  • 上傳文件之後,這可能需要一些時間來準備建議引擎。

項目建議窗格中會提供建議的項目。

文章建議窗格

「項目建議」窗格中提供下列選項可供您使用。

  • 按一下建議項目的名稱會開啟一個視窗,以顯示文件中出現的項目。 這可協助您決定要新增還是排除建議項目。
  • 新增此項目 (+) 會將項目建議新增至字典。
  • 排除此項目 (-) 會從建議項目清單中移除項目,並將其新增至排除的項目
  • 全部新增會將整個建議項目清單新增至字典(這不會新增在排除的項目下列出的項目)。
  • 全部排除會將所有現行項目建議移至排除的項目

相關作業

以字典預先註釋文件

相關參考資料

語言支援