三菱電機數據科學工具「MELSOFT MaiLab」運用獨家AI技術Maisart®,自動學習、分析生產數據,並自動生成最適合解決課題的診斷模型,提供您即時診斷及改善建議。
利用AutoML(自動機器學習功能),透過以下4個步驟自動分析、建立診斷模型:
資料品質直接影響AI診斷模型的精確度,因此「資料準備」是重要關鍵。
本文我們將學習如何製作高品質的資料集。
為分析數據、建立診斷模型而登錄至MaiLab中的數據組,稱為「資料集」。
登錄後的資料集,可透過表格或圖表實現數據可視化,並且可以建立診斷模型(AI)。
■ 資料集規格
項目 | 內容 | 備註 |
最大變數量 | 256個 | |
最大記錄數 | 864,000行 | |
最多可建立數量 | 128 | 1個項目內的最大數 |
最大可建立大小 | 2GB | 1個項目內的合計大小 |
■ 資料源
用於登錄資料集的數據檔案被稱作「資料源」,可登錄的檔案格式為CSV或TSV。
項目 | 內容 |
副檔名 | .csv/ .tsv |
支援字元編碼 | UTF-8/ SHIFT JIS |
變數名的最大字數 | 255字符 |
各數據的最大字元數 | 255字符 |
1個檔案的最大大小 | 1 GB |
資料源由各列數據名稱(變數名)的「標題行」與儲存數據的「數據行」構成。
當資料源為多個檔案時,可透過「垂直連接」或「水平連接」的方式,結合為一個資料集以進行登錄。
• 垂直連接:多個資料源具有相同欄位結構時,可垂直連接為一個資料源。
• 水平整合:多個資料源間的數據有關聯時,可指定具相同名稱的變數為連接鍵,整合為一個資料源。當有多個資料源時,先做垂直連接後再做水平連接。
資料集分為「波形資料集」與「表格資料集」兩種類型。
■ 波形資料集
數據的排列順序具有意義,例如:隨時間連續變化的測量數據等。
無法改變數據的記錄(行)順序。透過安裝在裝置上的感測器進行連續測量的數據等,屬於此類別。
■ 表格資料集
數據的排列順序不具有意義。
即使改變數據的記錄(行)順序,整體涵義也不會發生改變。各工廠及產品的生產數據、記錄各產品檢查結果的數據等,皆屬於此類別。
根據資料集類型不同,建立AI時指定的內容有所不同。此外,手動建立AI時指定的內容也會有所差異。
登錄資料集時,請設定適用的資料集類型。
■ 變數類型
MaiLab中可處理3種變數類型,在登錄資料集時可進行設置。
根據變數類型不同,可視化的方法及建立AI的處理方法會有所差異。
變數類型 | 內容 | 例 |
數值 | 數值大小有意義,可進行加減等運算。 希望透過AI預測數值時,透過數值類型定目標變數。 |
• 氣溫(-10℃、15℃、20℃) • 測試分數(20分、50分、95分等) • 電流值(0.01mA、1.1mA、100A等) • 壓力(1mPa、10Pa、1013hPa等)等 |
類別 | 表示分類、種類,無法直接加減的數據。 類別類型的值主要為字元串。即使值為數字,但在表示ID或種類等情況時,也作為類別類型進行設置。 |
• 問卷調查結果(1:不滿、2:普通、3:滿意) • 血型(A型、B型、O型、AB型) • 批次編號(A0001、A00002等) • 狀態(0:正常、1:外觀異常、2:內部異常等)等 |
時間戳 | 表示數據收集時間等,與資料相關的時間資料。 可清楚表示資料順序性的可視化,或用於對資料進行加工處理,無法用作目標變數。 |
• YYYY/MM/DD • YYYY-MM-DD • MM/DD/YYYY • hh:mm:ss.fff • hh:mm:ss • YYYY/MM/DD hh:mm:ss.fff • hh:mm:ss.fff YYYY/MM/DD 等 |
上傳資料源,建立資料集。
透過一種資料源建立資料集時,僅實施STEP 1即可。
水平連接兩種不同資料源時,請依序實施STEP 1 → STEP 2。
STEP 1. 透過一種資料源建立資料集
![]() |
![]() |
![]() |
![]() *最多可一次上傳1,000個檔案。 |
![]() 6 輸入資料源的「標題行」編號與「數據開始行」編號。 7 點擊「OK」。 |
![]() |
![]() 8 顯示上傳的資料源一覽。 9 資料源無誤時,點擊「下一步」。 |
![]() 10 顯示資料源垂直連接的結果。 11 根據需要變更以下項目: • 資料集類型:選擇「表格資料集」或「波形資料集」 • 有無使用變數:不用於可視化或建立AI時,選擇「不使用」。 • 變數類型:選擇「數值」、「類別」或「時間戳」(根據資料內容不同,可選擇的變數會有差異) 12 點擊「完成」。 |
![]() |
STEP 2. 使用STEP 1 中建立的資料集,與第二種資料源進行水平連接
此步驟說明如何在STEP 1中建立的資料集中,添加第二種資料源進行水平連接。
連接鍵的變數名為「ID」,在STEP 1中建立的資料集與第二種資料源之中皆含有此項資料。
![]() |
![]() |
![]() |
![]() |
![]() |
![]() |
![]() 7 水平連接畫面中顯示Group 1(STEP 1中建立的資料集)與Group 2(此次上傳的資料源)的前5行。 8 指定「連接鍵」、「連接方式」,點擊「下一步」。 |
![]() |
![]() 9 顯示水平連接的結果後,根據需要變更結合變數的「有無使用變數」、「變數類型」。 10 點擊「完成」。 |
![]() 11 水平連接的資料集建立完成。 |
使用預覽功能將建立的資料集可視化,透過視覺方式確認資料。
MaiLab針對不同類型的變數,提供各種形式進行可視化。
![]() 1 在資料集管理畫面中選擇預覽對象。 2 從右鍵單擊選單中選擇「預覽」。 |
![]() 3 預覽畫面在瀏覽器的其他標籤中顯示。 4 從預覽選擇的下拉選單中選擇圖表的種類。 |
![]() |
若準備的資料存在問題(如數據量不足、混入錯誤數據等)時,會降低診斷模型的精度。
另外,必要時也可適時添加數據以擴展資料集。
確認資料是否處於以下狀態:
• 必要的變數未包含在數據中
• 包含大量裝置停止中的數據,有意義的數據過少
• 數據分布存在偏差
■ 數據確認方法
① 確認「必要的變數未包含在數據中」 |
![]() 1 在資料集管理畫面中選擇欲確認的資料集,從右鍵單擊選單中選擇「預覽」。 |
![]() 2 在數據概要畫面中,確認「必要的變數是否包含在數據中」、「變數類型是否符合預期」等。 |
② 確認「數據分布存在偏差」 |
![]() |
![]() 4 選擇圖表化的變數,透過圓餅圖、柱狀圖/長條圖確認「數據是否存在偏差」。 *柱狀圖:顯示對象為「類別變數」時為柱狀圖。 |