一、介紹
KNIME Analytics Platform是用於建立資料科學應用程式和服務的開源軟體。KNIME直觀,開放,不斷整合新的開發,使人們可以理解資料,設計資料科學工作流程和可重用元件。
藉助KNIME Analytics Platform,您可以使用直觀的拖放式圖形介面建立視覺化工作流程,而無需編碼。
在本快速入門指南中,我們將引導您完成KNIME Workbench,並向您展示如何構建您的第一個工作流程。
二、啟動KNIME Analytics Platform
如果您尚未安裝KNIME Analytics Platform,則可以在此https://www.knime.com/downloads 下載。
啟動KNIME Analytics Platform,當KNIME Analytics Platform Launcher視窗出現時,在此處定義KNIME工作區,如圖1所示。
圖1. KNIME Analytics Platform Launcher
KNIME工作區是本地計算機上的一個資料夾,用於儲存KNIME工作流,節點設定和工作流生成的資料。儲存在工作區中的工作流程和資料可通過KNIME Workbench左上角的KNIME Explorer獲得。
選擇資料夾作為專案的KNIME工作區後,單擊“ 啟動”。在使用時,KNIME Analytics Platform使用者介面 - KNIME Workbench - 看起來就像圖2中所示的螢幕截圖。
圖2. KNIME Workbench
KNIME Workbench由以下元件組成:
l KNIME Explorer:活動KNIME工作區中可用工作流和工作流組的概述,即本地工作區和KNIME伺服器。
l Workflow Coach(工作流指導):根據廣泛的KNIME使用者社群構建的工作流程列出節點建議。如果您不允許KNIME收集您的使用情況統計資訊,則它處於非活動狀態。
l Node Repository(節點儲存庫):此處列出了核心KNIME Analytics Platform和您已安裝的擴充套件中可用的所有節點。節點按類別組織,但您也可以使用Node Repository頂部的搜尋框來查詢節點。
l Workflow Editor(工作流編輯):用於編輯當前活動的工作流。
l Description(描述):當前活動工作流或所選節點的描述(在Workflow Editor或Node Repository中)。
l Outline(大綱):當前活動工作流程的概述。
l Console(控制檯):顯示執行訊息,指示引擎蓋下發生了什麼。
三、節點和工作流程
在KNIME Analytics Platform中,各個任務由節點表示。每個節點都帶有輸入和輸出埠、以及狀態,如圖3所示。輸入是節點要處理的資料,輸出是處理後的資料結果集。每個節點都有特定的設定,我們可以在配置對話方塊中進行調整。每個節點都有四種狀態,未配置的、已配置的、已執行的、錯誤的。節點可以執行各種任務,包括讀/寫檔案,轉換資料,訓練模型,建立視覺化等等。
圖3.節點埠和節點狀態
互連節點的集合構成工作流,並且通常代表特定資料分析專案的一部分 或者可能全部。
四、建立你的第一個工作流程
現在讓我們開始構建一個示例工作流,我們分析一些銷售資料。當我們完成它時,它看起來就像圖4中所示的工作流程。
圖4.示例工作流程
圖4中的示例工作流從CSV檔案中讀取資料,過濾列的子集,過濾掉一些行,並在兩個圖中視覺化資料:堆積面積圖和餅圖,您可以在圖5中看到:一個顯示銷售額隨時間的變化,另一個顯示不同國家在總銷售額上的份額。
圖5.示例工作流的輸出檢視
首先,請先下載包含我們將在工作流程中使用的資料的CSV檔案。下載地址:https://files.knime.com/sites/default/files/sales_data.csv。接下來,通過以下方式建立新的空工作流:
l 單擊新建在KNIME工作臺的頂部工具欄皮膚
l 或者右鍵單擊KNIME Explorer中本地工作區的資料夾,如圖6所示
圖6.建立一個新的空工作流程
您需要的第一個節點是檔案讀取器節點,您可以在節點儲存庫中找到該節點。您可以導航到IO→讀取→檔案讀取器,或在節點儲存庫皮膚的搜尋框中鍵入名稱的一部分。
要在工作流程中使用該節點,您可以:
l 將其從節點儲存庫拖放到工作流編輯器
l 或者雙擊節點儲存庫中的節點。它會自動顯示在工作流編輯器中。
現在讓我們定義這個節點的設定:
l 開啟配置對話方塊或者通過雙擊檔案讀取器節點,或通過右鍵單擊並選擇配置...,如圖7。
圖7.配置節點
l 在配置對話方塊中,單擊“ 瀏覽” 按鈕定義檔案路徑,然後檢查其他可用設定,並預覽資料,如圖8所示。
圖8. File Reader節點的Configuration對話方塊
您現在可能需要檢查輸出表以檢視資料檔案是否按預期讀取。要檢查輸出表:
l 右鍵單擊節點並選擇“ 執行”,執行“檔案讀取器”節點
l 通過右鍵單擊執行的節點並選擇選單中的最後一個選項開啟輸出表:檔案表
如果正確讀取了資料,請將Column Filter節點新增到工作流編輯器並將其連線到File Reader節點:
l 單擊File Reader節點的輸出埠,按住滑鼠按鈕並在Column Filter節點的輸入埠釋放它
l 或者,通過在工作流中單擊一次選擇“檔案讀取器”節點,然後雙擊節點儲存庫中的“列過濾器”節點。此方法自動將Column Filter節點連線到File Reader節點。
在繼續之前,必須配置“列過濾器”節點:
l 將“country”,“date”和“amount”列移動到綠框 Include欄位中,方法是雙擊它們,或者使用圖9所示配置對話方塊中Exclude和Include欄位之間的按鈕。
圖9.配置Column Filter節點
l 單擊“ 確定”完成配置
繼續構建工作流程:
l 將“行過濾器”節點新增到工作流編輯器並將其連線到“列過濾器”節點
l 開啟“行過濾器”節點的配置對話方塊,並從輸入表中排除“country”列的值為“unknown”的行,如圖10所示。
圖10.配置Row Filter節點
現在已經過濾了資料,讓我們繼續進行資料視覺化:
l 在節點儲存庫中搜尋節點Stacked Area Chart(JavaScript)和Pie / Donut Chart(JavaScript),並將它們新增到工作流編輯器,兩者都連線到Row Filter節點
l 開啟Stacked Area Chart(JavaScript)節點的配置對話方塊。選擇“date”列作為x軸列,如圖11所示。
圖11.配置Stacked Area Chart(JavaScript)節點
l 現在開啟餅圖/圓環圖(JavaScript)節點的配置對話方塊,選擇“country”作為類別列,選擇“Sum”作為聚合方法,將“amount”作為餅圖的頻率列。這兩種配置選項如圖12所示。
圖12.配置餅圖/圓環圖(JavaScript)節點
工作流程已完成,下一步是執行它並檢視輸出。您可以通過單擊圖13中所示工具欄中的“執行所有可執行節點”按鈕來執行此操作...
圖13.從工具欄中執行所有可執行節點
...,或者通過選擇工作流的不同分支的最後一個節點,右鍵單擊選擇,然後單擊選單中的“ 執行 ”。
要檢查基於JavaScript的節點的互動式輸出檢視:
l 為未執行的節點選擇Execute和Open Views選項,如圖14所示
圖14.執行和開啟互動式檢視
l 或者,一旦執行一個節點,右鍵單擊該節點並選擇互動檢視:...相反,如圖15
圖15.開啟已執行節點的互動檢視
目前,餅圖使用資料中不同國家/地區的預設顏色。使用Color Manager節點,您可以為國家/地區指定其他顏色,而不是圖5中所示的預設顏色。在構建圖形之前必須分配顏色,因此您必須在顏色管理器中間新增顏色管理器節點。流程。
新增Color Manager節點:
l 通過從節點儲存庫中拖動節點並在連線變為紅色時在工作流中的行過濾器節點和餅圖圓點圖表節點之間將其釋放,如圖16所示。紅色連線表示它已準備好接受釋放滑鼠時的新節點。
圖16.在工作流中的兩個節點之間插入一個節點
五、示例工作流程
使用KNIME Hub上的示例工作流程快速開始分析。您可以直接在hub.knime.com上瀏覽示例工作流,也可以通過KNIME Explorer中的EXAMPLES掛載點瀏覽。您可以將工作流程複製到本地工作區,根據用例進行修改,或將其中的部分內容複製到工作流程中。KNIME Hub上的工作流程也是瞭解KNIME Analytics Platform中不同用例的有用資源。
要從KNIME Analytics Platform中訪問示例工作流程:
l 在KNIME Explorer中展開EXAMPLES掛載點
l 接下來,雙擊以檢視按類別排序的示例工作流,如圖17所示。無需憑據。
圖17.登入EXAMPLES掛載點
l 在這些類別中,一些工作流組以單個操作命名,例如過濾
l 其他工作流程組的名稱涉及更廣泛的主題,例如時間序列分析
l “50_Applications”工作流程組包含的工作流程涵蓋整個用例,如流失預測或欺詐檢測
要下載示例工作流程:
l 拖放
l 或者,複製並貼上
工作流進入LOCAL工作區。雙擊下載的示例工作流副本,以開啟和編輯它,就像任何其他工作流程一樣。
六、擴充套件和整合
如果要向KNIME Analytics Platform新增功能,可以安裝擴充套件和整合。可用的擴充套件包括KNIME提供的免費開源擴充套件和整合,以及由社群和商業擴充套件提供的免費擴充套件。
由KNIME開發和維護的KNIME擴充套件和整合包含Keras提供的深度學習演算法,H2O提供的高效能機器學習,Apache Spark提供的大資料處理,以及Python和R提供的指令碼,僅舉幾例。
安裝擴充套件程式:
l 單擊檔案選單欄上,然後安裝KNIME擴充套件...。將開啟如圖18所示的對話方塊。
l 選擇要安裝的擴充套件程式
l 單擊“下一步”並按照說明操作
l 重新啟動KNIME Analytics Platform
圖18.安裝擴充套件和整合
預設情況下,KNIME擴充套件和受信任的社群擴充套件可通過其更新站點的URL獲得。可以通過首先新增其更新站點來安裝其他擴充套件。
要新增更新站點:
l 導航到“檔案”→“首選項”→“安裝/更新”→“可用軟體站點”
l 點選“新增...”
l 並通過“位置”欄位提供URL來新增新的更新站點
l 或者,通過提供包含本地更新站點的zip檔案的檔案路徑,通過“存檔...”
l 最後,給更新站點一些有意義的名稱並單擊“確定”
完成此操作後,可以如上所述安裝擴充套件。
通過以下方式更新到最新的KNIME版本:
l 單擊檔案,然後更新KNIME ......以確保您使用KNIME軟體的最新版本,並已安裝的擴充套件
l 在開啟的視窗中,選擇更新,接受條款和條件,等待更新完成,然後重新啟動KNIME Analytics Platform
七、提示與技巧
- 在KNIME論壇上獲得幫助和討論
登入KNIME社群論壇,加入KNIME分析平臺,擴充套件和整合,特殊興趣小組和KNIME開發等不同類別的討論。論壇是一個充滿活力的社群,KNIME的工作人員以及其他經驗豐富的KNIME使用者可以回答您的問題。 - 匯入和匯出工作流程
要匯入工作流程或工作流程組,在KNIME Explorer –>LOCAL的任意位置單擊右鍵,然後選擇Import(Export)KNIME Workflow...,如圖19
圖19.匯入和匯出工作流和工作流組
要匯出工作流程或工作流程組,請首先選擇要匯出的工作流程(或組)
接下來,寫入目標資料夾的路徑和檔名。如果匯出工作流組,則可以從資料夾中選擇要匯出的元素。如圖20所示
圖20.定義要匯入或匯出的檔案的路徑
- 通過拖放資料檔案
匯入資料您可以從KNIME工作區或系統上的任何位置匯入資料檔案,方法是將其從KNIME Explorer,桌面或檔案資源管理器拖放到工作流編輯器,如圖21所示。方法自動建立正確的節點以讀取檔案型別,並通過使用相對於KNIME Explorer位置的檔案路徑URL填充檔案路徑設定來預先配置節點。
圖21.通過拖放讀取資料檔案
- 替換工作流中的節點
您可以通過從儲存庫拖動節點並在其中出現白色箭頭和方框時將其放在現有節點之上來替換工作流中的節點,如圖22所示。
圖22.替換工作流中的節點
- 展開您的節點搜尋:模糊搜尋和清晰搜尋
如果您不確定要搜尋的節點的名稱,請通過單擊搜尋欄位旁邊的圖示切換到節點儲存庫中的模糊搜尋模式,如圖23所示您的搜尋結果現在將包含與搜尋詞相關的任何節點。在清晰搜尋模式下,搜尋文字必須與節點名稱本身完全匹配。通過更多練習構建工作流程,您將記住越來越多的節點名稱。一段時間後,您可能會切換回清晰的搜尋模式,以便更快地找到您正在尋找的節點。
圖23. Crisp和模糊搜尋模式
- 監視節點的狀態
如果要檢視工作流中的中間輸出表,可以將節點監視器皮膚新增到KNIME Workbench:
n 單擊View→Other→KNIME Views→Node Monitor,如圖24所示
圖24.將節點監視器新增到KNIME Workbench
n 接下來,在Node Monitor右上角的View選單中選擇Show Output Table,如圖25所示。此皮膚現在顯示您在工作流程中選擇的節點的輸出。
圖25.在節點監視器中顯示輸出表
l 除了輸出表之外,您還可以讓皮膚顯示節點的執行時間。您還可以固定一個節點的輸出。這意味著當前所選節點的輸出與工作流編輯器中的選擇無關。
掃碼關注獲取 KNIME 最新動態
公眾號:Spark技術學習