IBM Cloud Docs
資料分析方法

資料分析方法

使用「內容採礦」應用程式中的工具來分析資料。

您可以透過下列方式分析資料:

檢閱分析結果時,您可以標示稍後要進一步研究的文件。 如需相關資訊,請參閱 標示文件

當您找到重要見解時,可以取得視圖的 Snapshot,然後將它新增至報告以與其他人共用。 如需相關資訊,請參閱 建立報告

開始分析

使用內容採礦應用程式,根據文件文字以及儲存在文件中的任何註釋或強化來分析集合中的文件。

若要開始分析,請完成下列步驟:

  1. 輸入搜尋詞彙,按一下用來過濾文件的資料類型,或將搜尋欄位保留空白以傳回所有文件。
  2. 按一下搜尋

結果的引導模式視圖會顯示建議的後續步驟,您可以採取這些步驟來進一步分析資料。 如果您不想要查看建議,則可以切換至 專家模式。 在「專家」模式中,每當您提交搜尋時,都會傳回列出搜尋結果的 文件 視圖。

本主題中的作業說明如何在引導模式下使用應用程式。

尋找相關關鍵字

若要分析關鍵字相關性,請完成下列步驟:

  1. 從起始搜尋頁面中,提交關鍵字搜尋來過濾文件。

  2. 從引導模式的搜尋結果頁面中,按一下 分析原因或性質

    在性質單字窗格之後,會顯示一個窗格,其中含有每一種資料類型類型的相關性資訊。

    方面相關性圖表
    方面相關性

    每一個相關性窗格都會顯示符合資料類型之文件中出現的關鍵字清單。

計數 直欄顯示現行結果集中包含關鍵字的文件數。 相關性 直欄會顯示頻率計數與符合查詢之其他文件的唯一性層次。 高相關性值會以顏色深淺度顯示,並增加明暗度。 顏色從黃色開始,然後增加到橙色,然後變成紅色。

識別循環模式中的異常

使用 主題 分析,以尋找資料中呈現的季節性、每月甚至每日型樣中的異常。

您的文件必須至少包含一個日期或時間欄位,才能使用主題資訊。

主題分析著重於關鍵字在特定時段的頻率偏離預期平均頻率的程度。 預期平均值會使用相同時段內其他關鍵字的所有頻率計數平均值。 此分析方法有助於識別循環發生的型樣,並強調顯示這些循環型樣中可能發生的任何非預期變更。

若要尋找異常,請完成下列步驟:

  1. 從起始搜尋頁面中,輸入關鍵字或選取具有數值的資料類型來過濾文件。

  2. 從引導模式的搜尋結果頁面中,按一下 分析原因或性質

  3. 從「資料類型分析」窗格中,選取 主題

  4. 調整下列值以符合您的分析:

    • 結果數
    • 日期資料類型
    • 時間單位
    • 日期範圍
  5. 選擇目標資料類型或子資料類型,然後按一下 分析

    產生的時間序列圖形會顯示一段時間內關鍵字提及項目的頻率變更。

    主題分析圖顯示設備在夏季有一些橙色條
    主題分析時間序列視圖

    當提及項目數目偏離預期頻率時,會使用顏色編碼來強調顯示。 偏差越高,顏色越濃,從黃色到橙色到紅色。 平均值是根據相同時段中其他關鍵字的出現頻率來計算。

週期性資料是根據您收藏的目前時區設定計算出來的。 如果您要變更圖形使用的時區,請參閱 變更時區

尋找重要術語

從資料集中尋找性質單字。 性質單字視圖是一個單字雲,顯示在您正在分析的文件中經常提及的術語。

您可以按一下單字雲中的單字,以將它新增至現有查詢,並過濾現行文件集以僅包括也提及指定單字的文件。

若要尋找重要項目,請完成下列步驟:

  1. 從引導模式的搜尋結果頁面中,按一下 分析原因或性質

    即會顯示性質單字視圖。

    分面詞雲
    特徵詞雲

    不同的字型顏色有助於區分字組; 它們沒有統計意義。

  2. 按一下雲端中的單字,以將文件集限制為僅包含提及該單字的文件。

分析兩個資料類型之間的關係

使用 配對 分析,以查看兩個資料類型如何彼此相關。

若要比較兩個資料類型,請完成下列步驟:

  1. 從「資料類型分析」窗格中,選取 配對

  2. 在清單中尋找您要比較的第一個資料類型。 按一下與資料類型相關聯的 X 軸或 Y 軸圖示,以指出您要在二維圖形中顯示資料類型值的位置。

  3. 尋找第二個資料類型,然後按一下其餘軸圖示。 例如,如果您先前選取了 X 軸圖示,請選取第二個資料類型的 Y 軸圖示。

    這兩個資料類型的資料會顯示在圖形中。

    小平面對比較圖
    小平面比較圖

圖形顯示兩個數字。 第一個數字是頻率計數,第二個數字是相關性值。 頻率計數測量在文件中同時找到兩個資料點的次數。 相關性測量頻率計數與符合查詢的其他文件相比的唯一性層次。 如果相關性顯示 2.0,表示兩個資料點相交的次數是預期的 2 倍。 為了協助您識別可能需要更深入分析的異常,高相關性值會以遞增明暗度 (從黃色到橙色到紅色) 的顏色深淺度顯示。

分析許多資料類型之間的關係

使用 連線 分析來查看多個資料類型如何彼此相關。

若要比較兩個以上資料類型,請完成下列步驟:

  1. 從「資料類型分析」窗格中,選取 連線

  2. 選取您要先與其他資料類型比較的根資料類型。

  3. 從清單中最多再選取 4 個資料類型,然後按一下 分析

    依序在第一個資料類型與其他資料類型之間進行配對分析。

    Facet組合比較圖
    Facet網路圖

    產生的網路圖形只會顯示高度相關及高頻配對。 每一個節點代表一個資料類型值。 節點顏色反映資料類型。 節點之間的實線連線可識別高度相關的配對。 點虛線連線可識別高頻配對。

變更數字範圍

如果圖形的尺度未針對您的資料最佳化,您可以變更它。 例如,若要繪製車輛速度,您可能想要以幾十或 20 來遞增的範圍,而不是以千為單位。

若要變更資料類型的圖形比例,請完成下列步驟:

  1. 按一下頁面標頭中的 集合 鏈結。

  2. 在集合的磚中,按一下 開啟並關閉選項清單 圖示,然後選擇 編輯集合

  3. 資料類型 標籤中,尋找您要變更其數字範圍的資料類型。

  4. 在「範圍」欄位中,按一下 編輯

  5. 定義您要用作 JSON 物件的每一個範圍。 您可以新增或移除物件,以變更範圍中的資料點數目。

    例如,識別車輛速度範圍的 JSON 物件可能如下所示:

    [
      {
        "query": "[1, 20)",
        "label": "1 - 19"
      },
      {
        "query": "[20, 40)",
        "label": "20 - 39"
      },
      {
        "query": "[40, 60)",
        "label": "40 - 59"
      },
      {
        "query": "[60, 80)",
        "label": "60 - 79"
      },
      {
        "query": "[80, 100000)",
        "label": "80+"
      }
    ]
    
  6. 按一下套用

  7. 按一下儲存,然後按一下關閉

  8. 按一下集合磚以回到集合並繼續分析。

車輛速度數範圍的變更會為要強調顯示的資料中的關係或異常帶來更多機會。

顯示一對比較圖表,其中每一列列出一個狀態,每一欄顯示一個車輛速度。 其中 TN 和 80 加 MPH 會以橙色強調顯示,以顯示異常。
更改數字範圍後的結果

在地圖視覺化中顯示結果

代表地理位置的資料類型可以顯示在地圖視覺化中。 例如,如果您具有具有 US 狀態資料類型的集合,則可能想要從視覺化顯示每個狀態的資料,讓使用者可以從地圖中選取每個狀態。

顯示美國的地圖,其中顯示與所選取狀態相關的資料。
結果顯示在地圖視覺化

依預設,可以使用「美國地圖」。 您可以新增以 GeoJSON 格式建置的自訂地圖。 如需相關資訊,請參閱 RFC7946

若要使用您定義的對映,請完成下列步驟來匯入對映定義:

  1. 從「內容採礦」應用程式首頁中,從頁面標頭中的瀏覽途徑按一下 集合
  2. 按一下頁首的 Settings 圖示。
  3. 按一下 Manage customization resources(管理自訂資源 )。
  4. 按一下新增資源
  5. 為資源命名,然後按 下一步
  6. 新增地圖檔案,然後按一下 儲存

若要讓您新增的地圖可作為資料類型的視覺化選項,您必須編輯資料類型。

  1. 從頁面標頭中的瀏覽途徑按一下 首頁
  2. 用滑鼠右鍵按一下集合的溢位功能表,然後選擇 編輯集合
  3. 開啟 資料類型 標籤,然後尋找您要與地圖視覺化相關聯的資料類型。
  4. 視覺化類型 值變更為 地圖,然後從 資源 欄位的清單中挑選您新增的地圖。
  5. 按一下儲存,然後按一下關閉

標示感興趣的文件

使用文件旗標為文件或文件群組指定自訂旗標,以便分類、匯出或進一步分析。

標示文件是強調顯示您稍後要進一步檢查之文件的有用方法。

您必須先為集合建立旗標,然後才能為文件加上旗標。 如需相關資訊,請參閱 新增文件旗標

若要套用旗標,請完成下列步驟:

  1. 從集合的分析視圖中,建立查詢以傳回一組具有特定性質的文件。

  2. 從文件視圖中,按一下 文件旗標 圖示。

  3. 選取旗標。

  4. 您可以選擇將旗標套用至所有查詢結果或選取的文件,然後按一下 套用

    每個集合不能設定文件旗標超過 50 次。 無論您是為個別選取的文件加上旗標,還是為查詢加上旗標 (可能會傳回許多文件),每一個動作都計為一次設定旗標。

更新集合時,已標示的文件集會動態變更。 已標示的文件集在索引中儲存為查詢。 每個旗標都有一個查詢來代表與之相關聯的文件集。 例如,建立文件旗標,搜尋術語 ice cream,並將紅色旗標套用至包含此單字的所有文件後,ice cream 會儲存為代表該旗標的查詢。 然後,如果您搜尋 coffee 這個詞彙,並將紅旗套用到所有包含這個詞彙的文件,則內部旗標查詢會變更為 (ice cream) OR coffee。 因此,如果吸收包含單字 coffee 的新文件,則會自動將紅色旗標套用至那些文件。

檢視標示的文件

若要檢視套用旗標的文件,請完成下列步驟:

  1. 資料類型分析 畫面中,向下捲動至 文件旗標 資料類型。
  2. 選取資料類型,然後按一下 分析,以開啟 文件旗標 儀表板。
  3. 按一下其中一個旗標,按一下 進一步分析,然後按一下 顯示文件

從文件旗標查詢中移除文件旗標

若要移除文件旗標,請完成下列步驟:

  1. 從「您要分析什麼?」頁面中,按一下 搜尋來提交空查詢。

    空查詢會傳回集合中的所有文件。

  2. 按一下 顯示文件

  3. 按一下工具列上的文件旗標圖示,清除文件旗標的核取方塊,然後按一下套用

    這會從文件中移除文件旗標。