本文示例檔案已上傳至我的
Github
倉庫https://github.com/CNFeffery/DataScienceStudyNotes
1 簡介
jupyter lab
是我最喜歡的編輯器,在過往的文章中也給大家介紹過很多相關資源和實用外掛,但本文要給大家介紹的jupyter lab
外掛elyra
,絕對是我使用過的最強大的jupyter lab
外掛沒有之一,因為它的核心功能就是幫助我們解決資料分析工作中非常重要的問題——搭建工作流。
data:image/s3,"s3://crabby-images/3dc50/3dc5041ba2eebe7a81accd12167ef87e5aca9d54" alt="(資料科學學習手札95)elyra——jupyter lab平臺最強外掛集"
2 利用elyra搭建工作流
在安裝elyra
外掛集之前,請確保你的jupyter lab
版本在2.0
及以上,並且已經安裝好了nodejs
也就是所有jupyter lab
擴充外掛都需要的依賴。
不像常規的jupyter lab
外掛的安裝方法,我們執行下列命令即可安裝elyra
下整合的多個外掛:
pip install --upgrade elyra && jupyter lab build
安裝完之後,你的jupyter lab
操作介面外觀會發生一些變化,我們先記住在安裝elyra
之前我們的jupyter lab
介面長啥樣(我使用的主題感興趣的朋友可以通過jupyter labextension install jupyterlab-tailwind-theme
來安裝):
data:image/s3,"s3://crabby-images/8404f/8404fd63d2a9eca902b4db4b09cd32b46e54ac1e" alt="(資料科學學習手札95)elyra——jupyter lab平臺最強外掛集"
而在安裝完成重啟jupyter lab
之後,除了左上角的jupyter
logo變化了之外,還新增了圖中我用紅框框選出來的地方:
data:image/s3,"s3://crabby-images/1a92c/1a92cd98741a1c3e2931155550dbbe2533ff8d4d" alt="(資料科學學習手札95)elyra——jupyter lab平臺最強外掛集"
接下來我們就來介紹如何利用elyra
互動式地搭建工作流。
elyra
賦予了我們通過互動的方式將若干個ipynb
檔案組織成工作流的能力,為了方便演示,這裡我們建立幾個帶有簡單流程程式碼的ipynb
檔案:
data:image/s3,"s3://crabby-images/ae232/ae2325ef81d59aa430c4199977de50028d9a2a50" alt="(資料科學學習手札95)elyra——jupyter lab平臺最強外掛集"
data:image/s3,"s3://crabby-images/74566/74566ec07b6d451ee13fdda19c7e21d41a57178a" alt="(資料科學學習手札95)elyra——jupyter lab平臺最強外掛集"
data:image/s3,"s3://crabby-images/14619/14619a035086ecbbbc496bf34e50e6dcdadadd2a" alt="(資料科學學習手札95)elyra——jupyter lab平臺最強外掛集"
data:image/s3,"s3://crabby-images/9024c/9024c41ff2eec06534ab042c699aa98b0682b000" alt="(資料科學學習手札95)elyra——jupyter lab平臺最強外掛集"
接著我們在Launcher頁面點選Pipeline Editor
開啟用來互動式編輯notebook流水線的介面:
data:image/s3,"s3://crabby-images/48867/488678a8e8622ee7eaafe038534789b6db9c8e04" alt="(資料科學學習手札95)elyra——jupyter lab平臺最強外掛集"
data:image/s3,"s3://crabby-images/6e4e0/6e4e086dd74b663f33d5703d6d745f27e04eeb37" alt="(資料科學學習手札95)elyra——jupyter lab平臺最強外掛集"
直接將側邊欄中對應的step1.ipynb
檔案拖拽進來:
data:image/s3,"s3://crabby-images/98185/98185f9f0315eeb12c13241114ea7592aca2aa28" alt="(資料科學學習手札95)elyra——jupyter lab平臺最強外掛集"
點選流水線介面中ipynb
檔案對應節點右側的三個圓點,可以開啟更多功能選項:
data:image/s3,"s3://crabby-images/76a9d/76a9d09547bed91fe7c763318eba781678aa279b" alt="(資料科學學習手札95)elyra——jupyter lab平臺最強外掛集"
因為我們是本地環境,所以這裡只需要在properties
下必填引數Runtime Image
中隨便選一個就行:
data:image/s3,"s3://crabby-images/1efd2/1efd2b8e6d662b76ab2a31c19cc99d3edd536714" alt="(資料科學學習手札95)elyra——jupyter lab平臺最強外掛集"
儲存之後,就完成了本地環境下單個節點的必要引數設定,同樣的將其他ipynb
檔案拖拽進來,各自配置好必要引數再如圖13所示將各節點聯結起來:
data:image/s3,"s3://crabby-images/0d102/0d1023a60b7db4fbab201ca646f2a5c41f223429" alt="(資料科學學習手札95)elyra——jupyter lab平臺最強外掛集"
這樣我們的流水線就搭建好了,是不是非常滴好玩~,接著點選左上角的執行按鈕,輸入流水線名稱後即可開始執行我們的工作流:
data:image/s3,"s3://crabby-images/3b0b2/3b0b252d1ec085309ca0a67d048ca0ac676e0af3" alt="(資料科學學習手札95)elyra——jupyter lab平臺最強外掛集"
工作流執行成功之後也會有提示:
data:image/s3,"s3://crabby-images/0dd66/0dd665640cac92234ce4ae8989d9d9aa68592c2a" alt="(資料科學學習手札95)elyra——jupyter lab平臺最強外掛集"
如果工作流執行到某個節點發生程式錯誤,也會有非常人性化的提示:
data:image/s3,"s3://crabby-images/4b6f3/4b6f34ad12140c199bc2016ef46ff489db6d54b3" alt="(資料科學學習手札95)elyra——jupyter lab平臺最強外掛集"
對應出錯的ipynb
錯誤程式碼塊上方,elyra
也會幫我們建立記錄錯誤資訊的markdown
單元格:
data:image/s3,"s3://crabby-images/0db40/0db402b198488c485e468967a8ff600797331582" alt="(資料科學學習手札95)elyra——jupyter lab平臺最強外掛集"
最好用的是,配合魔術命令%store
,我們就可以跨notebook
傳遞全域性變數,而不需要再往外寫出先前節點的結果檔案:
利用%store 變數名
將某個變數轉化為跨kernel
的全域性變數:
data:image/s3,"s3://crabby-images/5c6f8/5c6f8b48529f266eebb69d84a26cf57d4c0d90b4" alt="(資料科學學習手札95)elyra——jupyter lab平臺最強外掛集"
利用%store -r 變數名
將跨kernel
全域性變數中的指定變數載入到當前kernel
中:
data:image/s3,"s3://crabby-images/9816d/9816df687089f8b0fd4fe7ea192f5c995b3bc160" alt="(資料科學學習手札95)elyra——jupyter lab平臺最強外掛集"
而除了搭建工作流這個核心功能外,elyra
還有很多其他的實用功能,感興趣的朋友可以前往官方文件(https://elyra.readthedocs.io/en/latest/)自行閱讀學習。
data:image/s3,"s3://crabby-images/fccc8/fccc80b7c50e3f86193b44bb1fbe78d1d1197129" alt="(資料科學學習手札95)elyra——jupyter lab平臺最強外掛集"
以上就是本文的全部內容,歡迎在評論區與我進行討論~