解決方案 solutions

三菱電機數據科學工具「MELSOFT MaiLab」運用獨家AI技術Maisart®,自動學習、分析生產數據,並自動生成最適合解決課題的診斷模型,提供您即時診斷及改善建議。

利用AutoML(自動機器學習功能),透過以下4個步驟自動分析、建立診斷模型:

資料品質直接影響AI診斷模型的精確度,因此「資料準備」是重要關鍵。

本文我們將學習如何製作高品質的資料集。

什麼是資料集

為分析數據、建立診斷模型而登錄至MaiLab中的數據組,稱為「資料集」。

登錄後的資料集,可透過表格或圖表實現數據可視化,並且可以建立診斷模型(AI)。

■ 資料集規格

項目 內容 備註
最大變數量 256個  
最大記錄數 864,000行  
最多可建立數量 128  1個項目內的最大數
最大可建立大小 2GB  1個項目內的合計大小

 


■ 資料源

用於登錄資料集的數據檔案被稱作「資料源」,可登錄的檔案格式為CSV或TSV。

項目 內容
副檔名   .csv/ .tsv
支援字元編碼   UTF-8/ SHIFT JIS
變數名的最大字數   255字符
各數據的最大字元數   255字符
1個檔案的最大大小   1 GB

資料源由各列數據名稱(變數名)的「標題行」與儲存數據的「數據行」構成。

當資料源為多個檔案時,可透過「垂直連接」或「水平連接」的方式,結合為一個資料集以進行登錄。

• 垂直連接:多個資料源具有相同欄位結構時,可垂直連接為一個資料源。

• 水平整合:多個資料源間的數據有關聯時,可指定具相同名稱的變數為連接鍵,整合為一個資料源。當有多個資料源時,先做垂直連接後再做水平連接。

資料集的類型

資料集分為「波形資料集」與「表格資料集」兩種類型。

■ 波形資料集

數據的排列順序具有意義,例如:隨時間連續變化的測量數據等。

無法改變數據的記錄(行)順序。透過安裝在裝置上的感測器進行連續測量的數據等,屬於此類別。

■ 表格資料集

數據的排列順序不具有意義。

即使改變數據的記錄(行)順序,整體涵義也不會發生改變。各工廠及產品的生產數據、記錄各產品檢查結果的數據等,皆屬於此類別。

根據資料集類型不同,建立AI時指定的內容有所不同。此外,手動建立AI時指定的內容也會有所差異。

登錄資料集時,請設定適用的資料集類型。


■ 變數類型

MaiLab中可處理3種變數類型,在登錄資料集時可進行設置。

根據變數類型不同,可視化的方法及建立AI的處理方法會有所差異。

變數類型 內容
數值 數值大小有意義,可進行加減等運算。
希望透過AI預測數值時,透過數值類型定目標變數。
 • 氣溫(-10℃、15℃、20℃)
 • 測試分數(20分、50分、95分等)
 • 電流值(0.01mA、1.1mA、100A等)
 • 壓力(1mPa、10Pa、1013hPa等)等
類別 表示分類、種類,無法直接加減的數據。
類別類型的值主要為字元串。即使值為數字,但在表示ID或種類等情況時,也作為類別類型進行設置。
 • 問卷調查結果(1:不滿、2:普通、3:滿意)
 • 血型(A型、B型、O型、AB型)
 • 批次編號(A0001、A00002等)
 • 狀態(0:正常、1:外觀異常、2:內部異常等)等
時間戳 表示數據收集時間等,與資料相關的時間資料。
可清楚表示資料順序性的可視化,或用於對資料進行加工處理,無法用作目標變數。
 • YYYY/MM/DD
 • YYYY-MM-DD
 • MM/DD/YYYY
 • hh:mm:ss.fff
 • hh:mm:ss
 • YYYY/MM/DD hh:mm:ss.fff
 • hh:mm:ss.fff YYYY/MM/DD 等

建立資料集

上傳資料源,建立資料集。

透過一種資料源建立資料集時,僅實施STEP 1即可。

水平連接兩種不同資料源時,請依序實施STEP 1 → STEP 2。

    STEP 1. 透過一種資料源建立資料集    

  1  點擊側欄的「資料集」。
  2  在資料集管理畫面中點擊「新建」。
  3  在對話框中輸入建立的資料集名稱,點擊「OK」。
  4  將欲登錄的資料源拖放至設定畫面進行上傳。

  *最多可一次上傳1,000個檔案。

  5  資料源設定畫面上會以彈跳視視窗的方式,顯示上傳資料的前20行。

  6  輸入資料源的「標題行」編號與「數據開始行」編號。

  7  點擊「OK」。

  8  顯示上傳的資料源一覽。

  9  資料源無誤時,點擊「下一步」。

  10  顯示資料源垂直連接的結果。

  11  根據需要變更以下項目:

  • 資料集類型:選擇「表格資料集」或「波形資料集」

  • 有無使用變數:不用於可視化或建立AI時,選擇「不使用」。

  • 變數類型:選擇「數值」、「類別」或「時間戳」(根據資料內容不同,可選擇的變數會有差異)

  12  點擊「完成」。
  13  資料集建立完成

    STEP 2. 使用STEP 1 中建立的資料集,與第二種資料源進行水平連接    

此步驟說明如何在STEP 1中建立的資料集中,添加第二種資料源進行水平連接。

連接鍵的變數名為「ID」,在STEP 1中建立的資料集與第二種資料源之中皆含有此項資料。

  1  在資料集管理畫面中,點擊STEP 1中建立的資料集。
  點擊「新增資料夾」。
  點擊新增的「Group 2」資料夾。
  將整合的資料源上傳至「Group 2」資料夾中。
  輸入資料源的「標題行」編號與「數據開始行」編號,點擊「OK」。
   顯示上傳的資料源一覽,如果無誤則點擊「下一步」。

  水平連接畫面中顯示Group 1(STEP 1中建立的資料集)與Group 2(此次上傳的資料源)的前5行。

  8  指定「連接鍵」、「連接方式」,點擊「下一步」。

   9   顯示水平連接的結果後,根據需要變更結合變數的「有無使用變數」、「變數類型」。

  10  點擊「完成」。

  11  水平連接的資料集建立完成。

將建立的資料集可視化

使用預覽功能將建立的資料集可視化,透過視覺方式確認資料。

MaiLab針對不同類型的變數,提供各種形式進行可視化。

  1  在資料集管理畫面中選擇預覽對象。

  2  從右鍵單擊選單中選擇「預覽」。

  3  預覽畫面在瀏覽器的其他標籤中顯示。

  4  從預覽選擇的下拉選單中選擇圖表的種類。
  5  顯示選擇的圖表預覽畫面後,選擇要圖表化的變數。

確認準備好的資料

若準備的資料存在問題(如數據量不足、混入錯誤數據等)時,會降低診斷模型的精度。

另外,必要時也可適時添加數據以擴展資料集。

確認資料是否處於以下狀態:

• 必要的變數未包含在數據中

• 包含大量裝置停止中的數據,有意義的數據過少

• 數據分布存在偏差

■ 數據確認方法

① 確認「必要的變數未包含在數據中」

 1  在資料集管理畫面中選擇欲確認的資料集,從右鍵單擊選單中選擇「預覽」。

  2  在數據概要畫面中,確認「必要的變數是否包含在數據中」、「變數類型是否符合預期」等。

 ② 確認「數據分布存在偏差」
  3  從預覽選擇的下拉選單中,選擇顯示的圖表形式。

  4  選擇圖表化的變數,透過圓餅圖、柱狀圖/長條圖確認「數據是否存在偏差」。

*柱狀圖:顯示對象為「類別變數」時為柱狀圖。

相關產品