業界 | 當軟體工程師第一次與資料科學家一起工作……

大資料文摘發表於2019-01-05

業界 | 當軟體工程師第一次與資料科學家一起工作……

大資料文摘出品

編譯:fuma,錢天培

軟體工程師和資料科學家一起工作時,會擦出什麼火花呢?

作為Java / Kotlin開發人員,一位名叫Ben Danial的小哥為我們講述了他與資料科學家合作的有趣經歷。

在一年中,這位小哥從零開始學習機器學習,和資料科學家不斷交流合作,一起碼出了一個機器學習模型的原型,併成功把這個模型做上線。真是成就滿滿呢!

前情提要

大家好,我叫Ben Daniel,是一名安卓工程師。2017年末,我開始對機器學習領域產生興趣。機器學習這個領域充滿了有趣的挑戰,因此也就需要大量的學習。今天,我就給大家講述我和我司資料科學家一起攻克機器學習難題的經歷。

我還記得,我曾試圖解決我們的某個應用程式中出現的影像分類問題。我們需要根據一組規則區分有效和無效影像。於是我從深度學習領域中修改了dl4j這個例子,並試圖用它來處理分類任務。雖然結果不夠理想,但是我的心態還不錯。畢竟第一次嘗試嘛。

Dl4j例子連結:

由於精度和最終模型的大小不符,我使用dl4j程式碼的方法是不可取的。面向移動裝置,我們需要一個檔案大小緊湊的模型,很遺憾,這個功能無法實現。

資料科學家來啦

業界 | 當軟體工程師第一次與資料科學家一起工作……

正巧,這個時候,我們聘請了一位資料科學家,他帶來了許多有趣的經驗,也教會我們很多。我逐漸發現,大多數機器學習問題都可以透過Python解決,而且Python社群中已經有了對機器學習的巨大支援。雖然不太情願,但我還是開始了Python的學習。

我從小型的機器學習課程開始學起。與此同時,我的其他團隊成員也很感興趣,並一起加入了學習的大軍。新入職的資料科學家向我們介紹了Jupyter notebook和雲機器學習引擎。我們透過使用花卉資料集示例嘗試影像分類,並很快沉迷其中。

在團隊中的每個人都接受了培訓和模型的基礎知識後,我們開始處理文章開始提到的遺留問題。作為一名團隊成員,我主要專注於兩項任務:影像分類問題和影像分割問題。之後,這兩個問題都被我們用卷積神經網路(CNN)解決了。

準備訓練資料真心難

業界 | 當軟體工程師第一次與資料科學家一起工作……

這兩項任務(影像分類問題和影像分割問題)都需要大量的訓練資料。我有兩個訊息——好訊息是我們的確有很多資料。壞訊息是它們要麼是未分類要麼是未註釋。我終於明白了機器學習專家們所說的,機器學習專案中大部分時間將用來準備訓練資料而不是訓練模型本身。

對於影像分類分類問題,我們需要將數十萬個影像排列成不同的類。這是一項繁瑣的工作。我不得不呼叫我的Java Swing技能,來構建使這項任務更容易的GUI,但總的來說,標記資料這個任務真的很單調,很無聊。

分割問題就要複雜一些了。我們很幸運地發現了一些擅長分割的模型,但不幸的是,這些模型太佔記憶體了。我們還希望該模型能夠在規格非常低的安卓裝置上執行。這時,資料科學家建議我們使用龐大的模型來生成資料,用以構建我們自己的行動網路。

訓練

我們最終切換到了AWS Deep Learning AMI。訓練影像分割模型的過程完全由我們的資料科學家處理,我只需要站在他身邊,做筆記嘻嘻:)。

(其實我不在記筆記,哈哈哈哈哈哈哈哈)

業界 | 當軟體工程師第一次與資料科學家一起工作……

訓練這個模型是一項計算密集型任務,需要足夠GPU和RAM。我們便採用了GPU和RAM,因此很快就完成了模型訓練。如果不是這樣的話,我們可能要花費數月來訓練這個模型。

我負責了影像分類模型的訓練。不過,我並沒有在雲上訓練,而是隻在我的Macbook pro上訓練。這是因為,我只是訓練神經網路的最後一層,而不是我們為分割模型所做的全網路訓練。

順利完成!

兩種模型經過嚴格的測試後,都成功進入了我們的產品線。在這一步,團隊成員的任務是構建Java wrapper庫。這樣一來,我們就可以把模型繁複的細節隱藏起來。在使用時,我們只需輸入圖片,這個wrapper庫就會輸出一個機率 張量,也就是模型在單個影像上預測的結果陣列。我也參與了這一過程,因為我之前的一些寫碼經驗有用武之地。

人生處處是挑戰

“挑戰讓生活變得有趣,克服挑戰則讓生活變得有意義”。

在這個專案中,我面臨的最大挑戰是嘗試使用Bazel從原始碼構建用於32位系統的Tensorflow Java庫。整個過程實在是跌跌撞撞。

業界 | 當軟體工程師第一次與資料科學家一起工作……

我也遇到過其他挑戰,比如,將Python解決方案轉換為Java。由於Python已經內建了對資料科學任務的支援,因此Python中的程式碼感覺更加簡潔。每次在嘗試逐字翻譯命令時,我都會抓耳撓腮。比如,縮放2D陣列並將其作為透明層新增到影像中這一步就異常艱難。不過我們最終把這事兒搞定了!

現在我們上線的模型表現很好,但是當它們產生錯誤的結果時,那些錯誤的結果是荒謬無比的。

它讓我想起了我之前讀過的一句話:

“...如果沒有源源不斷的新資料,模型質量會迅速降低。這是著名的概念漂移(concept shift),這意味著,隨著時間的推移,靜態機器學習模型提供的預測變得不那麼準確,並且不太有用。在某些情況下,甚至可能在幾天內發生。 - David Talby

因此,我們必須不斷改進模型,並且永遠得不到一個一勞永逸的模型。其實還挺有趣的。

因為我本人主要關注移動開發,所以我甚至不確定自己有資格被稱為機器學習的新手。然而,透過與資料科學家的合作,我在今年成功上線了一個機器學習模型。回想起來,相當激動呢!

相關報導:

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31562039/viewspace-2331183/,如需轉載,請註明出處,否則將追究法律責任。

相關文章