成為一名機器學習工程師

OReillyData發表於2017-04-26

編者注:Aurélien Géron 將會在5月22-25日召開的Strata資料倫敦大會上帶來題為《知識圖譜如何幫助大幅度提升推薦效果》的演講。優惠票價截止到4月7日。 

訂閱O’Reilly的資料秀播客來更好地把握驅動大資料、資料科學和人工智慧的機會與技術。也可以在TuneIn,iTunesSoundCloudRSS找到我們。

在這一的資料秀裡我採訪了Aurélien Géron。Aurélien是一個創業者、資料科學家,還是最近流行的一本新書《用Scikit-Learn和TensorFlow實踐機器學習》的作者。Géron的新書的目標讀者是那些想開始學習機器學習並希望在現實世界產品裡部署機器學習模型的軟體工程師們。

640?wx_fmt=png

隨著越來越多的企業採用大資料和資料科學技術,一個新的群體正在出現。他們有著很強的軟體工程的技能,同時還擁有使用機器學習和統計分析的經驗。開發和構建資料產品的需求帶來了大家所說的“機器學習工程師”的需求的增長。他們是既能夠開發資料科學的原型,也能工作於生產系統

640?wx_fmt=jpeg

本圖由Ben Lorica繪製

作為一名諮詢機器學習工程師Géron發現對於他的業務需求很旺盛。他希望他的新書能成為想進入這個領域的人士的一份重要資料。

下面是本次採訪中的一些重點:

由產品經理轉變為機器學習工程師

我決定加入谷歌,作為YouTube的視訊分類團隊的首席產品經理。這個團隊的目標是構建一個能自動發現每個視訊內容的系統。谷歌有一個巨大的知識圖譜,其中包括幾億個主題。我們的目標就是把每個視訊和它所包含的知識圖譜裡的主題建立連線。

我是一個產品經理,我也一直是一個軟體工程師。我覺得我有點遠離技術了;我想繼續寫程式碼。這是第一個原因。第二個原因是TensorFlow出現了,在谷歌內部有非常多的關於它的討論。我開始使用TensorFlow,然後就愛不釋手。我知道TensorFlow會變得很流行。我覺得寫它會產生一本好書。

為工程師寫一本機器學習的書

我上了所有能上的課程。有谷歌內部的機器學習的課程,那裡有不少好老師。我也儘可能地從書本上學習,從吳恩達的Coursera線上課程學習,以及任何你能想到的資源裡來學習機器學習。但是我對這些書有些失望。這些書不錯,但是有很多書是研究人員寫的,它們沒有什麼實踐內容。我是一個軟體工程師,我想程式設計。這就是為什麼我決定要寫一個本真正關於TensorFlow實踐的書,裡面有工程師們能選擇並能立即使用的程式碼和例子。另外一點是,儘管有一些面向工程師的書籍,但是它們的內容都儘可能地遠離基礎的數學。另外,很多現有書籍裡面的內容只是玩具性的功能、玩具性的程式碼。這讓我有些失望,因為我需要的是能部署到生產系統上的程式碼。這些就是整個這本書的想法的來源:為工程師們寫一本關於TensorFlow的書,裡面包括可用於生產系統的例子。

業務指標和機器學習的指標是截然不同的

你可以用幾個月來調優一個很棒的分類器,讓它能以98%的精確度來識別一個特定的主題集。但當你真正把它上線後才發現它並沒有對你的業務指標帶來什麼影響。

第一步就是要真正地去理解業務指標,或者業務目標是什麼。你將如何去測量它們?然後去嘗試看看你能否有機會去改進一些東西。一個有趣的技巧就是嘗試人工去完成這個任務。讓一個人去試著完成這個任務,然後看看是否能帶來影響。並不是每次都能產生影響,但是如果人可以做到,那麼就值得花費幾個月的時間來開發一個自動實現的架構了。如果人工不能帶來提升,那麼可能由機器來更好地完成它也會充滿挑戰。經管有可能,但是會比較的艱難。

確保你知道業務目標是什麼,並絕不要偏離它。我見過有人開始改進模型,但他們其實並沒有合適的指標來觀察是否真正的有提升。聽起來可能很傻,但是你需要做的第一批事情之一就是確保你有一個明確定義的、且大家都一致同意的測量指標。儘管說“我覺得這個架構會工作得更好”然後就投入開發工作是非常吸引人的,但這並沒有帶來任何實質的提升,因為你沒有一個明確可用的測量指標。

相關資料:

This article originally appeared in English: "Becoming a machine learning engineer".

PS, 在微信中瀏覽此頁面可能不能點選超連結,請從微信右上角選取手機瀏覽器來瀏覽。

640?wx_fmt=jpeg

Ben Lorica

Ben Lorica是O’Reilly Media的首席資料科學家和資料主題內容策略的主管。他已經在多個領域裡(包括直銷市場、消費者和市場研究、精準廣告、文字挖掘和金融工程)進行了商業智慧、資料探勘、機器學習和統計分析的工作。他之前曾效力於投資管理公司、網際網路創業企業和金融服務公司。




Strata Data Conference北京站已經開啟註冊系統,識別圖中二維碼可直接進入會議官網檢視門票、講師以及議題等詳情,最優惠票價期截止到5月5日為止儘快註冊以確保留位

640?wx_fmt=png


相關文章