【機器學習】超詳細！上線一個機器學習專案你需要哪些準備？

產業智慧官發表於2018-04-26

原文網址 : https://blog.csdn.net/np4rhi455vg29y2/article/details/80088567

Canvas是用於設計和記錄機器學習系統的模板。它比簡單的文字文件具有優勢，因為Canvas用簡單的部件通過部件之間的相關性來尋找機器學習系統的關鍵元件。這個工具已經很流行，因為它對複雜專案進行了視覺化操作。在本文中，我們通過列舉資料科學家遇到的實際問題和實用的技巧來描述Canvas的每個部分。

640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1

價值主張

機器學習應該以滿足使用者需求為目的進行設計

誰是預測系統的終端使用者？
我們需要他們做些什麼？
服務的目標是什麼？目標的意義又是什麼？
只有在回答這3W問題之後，你才能開始思考一些關於資料收集、特徵工程、建模、評估和監測系統的問題。

從資料中學習

讓我們繼續看看專門用於從資料中學習的Canvas的流程，它是由資料來源、收集資料、特徵工程、建模等幾部分組成的。

資料來源

這一部分提出了一個關於我們可以使用哪些原始資料來源的問題。這一步不需要具體計劃收集哪些資料，但會迫使你開始思考要使用的資料來源。你需要考慮的一些資料來源示例包括內部資料庫、開放資料、域中的研究論文、API、網頁抓取以及其他機器學習系統的輸出等。

收集資料

這一部分主要解決收集和準備資料的問題。如果沒有訓練資料集，機器學習專案就不可能存在。並且，訓練集最好包含大量已標記資料。這意味著你的學習系統將需要示例輸入和他們期望的輸出。只有從標有正確答案的資料中學習之後，機器學習模型才能用於對新資料進行預測。

通常，資料最初並不是以標註形式提供的，制定資料集的計劃非常重要，該資料集將特徵過程用作預測的實際資料。只有輸入的資料正確，所開發的學習演算法才具有良好的效能。

例如，如果你想建立一個演算法來預測一個Instagram帳戶是假的還是真的，首先你需要人類將帳戶標記為真或假。對於一個人來說這不是一項複雜的任務，但是根據你需要的資料量，這可能會變得很昂貴。

但是，你可以通過更具成本效益的方式獲取資料。例如，Instagram允許其使用者將其訊息中的影像和配置檔案報告為垃圾郵件。使用者免費為Instagram演算法標記資料，給喜歡的帖子點贊並將不當內容報告為垃圾郵件。然後，Instagram使用這些使用者反饋來打擊欺詐和垃圾郵件帳戶，併為每位客戶提供個性化的訊息。

需要指出的是，迄今為止最準確的機器學習系統都採用了“人為介入”方法。這種方法利用了機器和人的智慧。當機器不確定它做出的預測是否正確時，它會依賴於人，然後將人的答案新增到其模型中。“人為介入”這一方法有助於獲得高質量的新資料，並隨著時間的推移提高模型的準確性。

還有一些專案可以在沒有標註資料集的情況下啟動，。這些是關於無監督機器學習任務的專案，例如異常檢測或觀眾分類。

特徵工程

一旦擁有已標註的資料，你需要將其轉換為演算法可接受的格式。在機器學習中，這個過程被稱為特徵工程。最初的一組原始特徵可能是冗餘、海量而無法管理。因此，資料科學家需要選擇最重要的資訊特徵來促進學習。特徵工程需要大量的實驗，並將自動化技術與直覺和領域專業知識相結合。

InDataLabs的資料科學家Eugeny表示：

我們使用簡單的機器學習技術，如梯度提升或線性迴歸來選擇和解釋特徵。迴歸模型的係數自動提供對特徵重要性的評估估計。我們使用不同的超引數配置多次訓練模型，以確保特徵的排序是可靠的，並且從實驗到實驗並沒有顯著變化。

如果你是領域專家（不是資料科學家），你應該從自己的角度指定哪些特徵是最重要的，這對未來的資料工程師非常有用。如果發現自己列出了太多功能，請嘗試將它們組合到特徵系列中。

許多機器學習專家認為，正確選擇的特徵是有效構建模型的關鍵。

建立和更新模型

該部分解決了何時使用新資料建立/更新模型的問題。主要有兩個原因不斷使得你的模型不斷更新。首先，新資料可以改善模型。其次，它允許捕捉模型執行中的任何變化。模型需要用更新的頻率取決於預測內容。

如果模型預測了短語的情感，就不需要每天或每週更新它。文字的結構變化非常緩慢甚至沒有改變。如果你獲得了更多的訓練資料，這是你需要大規模的更新模型。

另一方面，有一些模型在快速變化的情況中工作。例如，如果對客戶行為做出預測，則應經常檢查這一模型是否適用於新使用者。受眾規模和受眾結構的重大變化可能使得我們需要使用新資料更新模型。

有時更新需要更多的時間和更多的處理能力。在這種情況下，我們需要在成本、時間和模型質量之間取捨。

這個部分的關鍵之處在於，你的模型不是一次性構建的，它應該隨著時間而改變，就像世界上的所有事物一樣。

進行預測

Canvas主要致力於進行預測，並由機器學習任務、決策、預測、離線評估等部件組成。

機器學習任務

該部分旨在根據輸入、輸出和問題型別定義機器學習任務。最常見的機器學習任務是分類、排名和迴歸。

如果你預測某些物體是什麼，要預測的輸出的是類標籤。在二進位制分類中，有兩種可能的輸出類別。在多類分類中，有兩個以上的可能類。我們前面討論過的偽造Instagram賬戶的預測問題是二元分類的一個例子。輸入資料可能包括個人資料名稱、個人資料描述、帖子數量、關注者數量、輸出標籤可能是“真的”或“假的“。

如果你試圖預測數值，那麼你正在處理迴歸任務。例如，當我們試圖根據價格歷史和有關建築和市場的其他資訊來預測未來幾天的房地產價格時，我們可以將其視為迴歸任務。

決策

如何使用預測來向終端使用者的決策提供建議？

在收集培訓資料並建立模型之前，你和團隊不得不闡述如何使用這些預測來做出為終端使用者提供價值的決策。對於每個專案來說，這是一個非常重要的問題，因為它與專案的盈利能力密切相關。如前文所述，一個成功的機器學習系統應該為其使用者創造額外的價值。

機器學習系統必須以真正有意義的方式影響決策過程，預測必須按時交付。許多公司犯的一個常見錯誤是建立一個機器學習模型，該模型應該可以線上進行預測，然後發現他們無法獲得實時資料。所以，在計劃您的機器學習專案時要注意時間，並確保在正確的時間提供正確的資料以提供您可以採取行動的預測。

機器學習系統的輸出並不總是使用者正在尋找的結果。例如，流失預測模型有助於預測一個月內誰可能流失，但終端使用者需要的是流失預防（以具有成本效益的方式阻止客戶流失）。從流失預測到流失預防需要做很多步驟，機器學習專案的擁有者必須能夠事先描述這些步驟。如果你不能解釋如何使用預測來做出為終端使用者提供價值的決策，那麼在這裡停下來，不要向前走，除非你找到答案。

進行預測

該部分解決了以下問題：“我們什麼時候對新投入做出預測？”以及“我們需要多長時間來設計新的投入並進行預測？”

有些模型允許分別更新每個使用者的預測。在這種情況下，你可以考慮幾種模型更新方法：

每次使用者開啟您的應用程式時都會進行新的預測
新的預測是根據請求做出的，使用者可以通過點選應用程式中的特殊按鈕來請求更新
預測更新由某個事件觸發，例如使用者提交新的重要資訊
對所有使用者按計劃進行新的預測，例如每週一次
還有一些系統，其中對不同使用者的預測是相互關聯的，並且在不更新整個系統的情況下無法為一個使用者進行更新。這種通用更新需要更多時間和更多處理能力，因此需要更多計劃。預測更新所需的時間必須符合所需的更新頻率。

例如，如果您要構建影片推薦系統，請首先考慮建議應該多久更新一次新輸入，以便與使用者相關且有價值。那麼你應該檢查這是否可能，因為你的機器學習系統的速度有限。如果您想每天更新並且更新需要兩個小時，這對您來說是個好訊息。如果您認為您的建議只有每小時更新一次才有價值，而更新需要兩個小時，則您需要再次在成本，時間和模型質量之間妥協。

離線評估

該模組在投入生產之前解決模型效能評估的問題。規劃方法和指標以在部署之前評估系統非常重要。如果沒有驗證指標，您將無法選擇能夠做出最佳預測並回答的模型，模型是否足夠好以及何時可以投入生產。因此，請確保您具有代表您正在努力實現的指標。

要評估一個有監督的機器學習演算法，我們通常使用k-fold交叉驗證。該方法意味著對可用訓練資料的（k-1）個子集上的幾個機器學習模型進行訓練，並對保留用於評估的補充子集進行評估。這個過程重複k次，每次都有不同的驗證資料。這種技術有助於避免過度擬合，同時使用所有可用的資料進行訓練

InDataLabs的資料科學家Eugeny如是說。

離線評估的另一種方法是對實時資料進行離線評估。例如，如果您正在建立預測房地產價格的模型，則只需等待實際銷售資料可用，並將您的預測與實時資料進行比較。

實時評估和監測

Canvas 的最後部分涵蓋了模型的線上評估和監測。在這裡，您將指定度量標準來監控部署後的系統效能（跟蹤度量標準），並衡量價值建立（業務度量標準）。調整這兩種指標將使公司中的每個人都更快樂。理想情況下，模型的質量與業務結果之間應有直接關係。

線上階段有其自己的測試程式。A/B測試是最常用的線上測試形式。這種方法相當簡單，但它有一些棘手的規則和原則，您需要遵循才能正確設定並解釋結果。

A/B測試的一個有希望的替代方法是稱為多臂博弈的演算法。如果您有多個競爭型號，並且您的目標是最大限度地提高使用者的整體滿意度，那麼您可以嘗試執行多臂博弈演算法。

當模型投入生產時，它與真實使用者進行互動，他們也可以提供關於模型準確性資訊。您可以收集這種現場反饋，進行客戶訪談或分析評論和支援請求。

您還應該繼續跟蹤模型在實時資料驗證度量上的效能，並在模型質量對終端使用者不滿意之前進行模型更新。

本文由北郵@愛可可-愛生活老師推薦，阿里云云棲社群組織翻譯。

文章原標題《How to Design Better Machine Learning Systems with Machine Learning Canvas》，譯者：Anchor C.

640?wx_fmt=png

人工智慧賽博物理作業系統

AI-CPS OS

“人工智慧賽博物理作業系統”（新一代技術+商業作業系統“AI-CPS OS”：雲端計算+大資料+物聯網+區塊鏈+人工智慧）分支用來的今天，企業領導者必須瞭解如何將“技術”全面滲入整個公司、產品等“商業”場景中，利用AI-CPS OS形成數字化+智慧化力量，實現行業的重新佈局、企業的重新構建和自我的煥然新生。

AI-CPS OS的真正價值並不來自構成技術或功能，而是要以一種傳遞獨特競爭優勢的方式將自動化+資訊化、智造+產品+服務和資料+分析一體化，這種整合方式能夠釋放新的業務和運營模式。如果不能實現跨功能的更大規模融合，沒有顛覆現狀的意願，這些將不可能實現。

領導者無法依靠某種單一戰略方法來應對多維度的數字化變革。面對新一代技術+商業作業系統AI-CPS OS顛覆性的數字化+智慧化力量，領導者必須在行業、企業與個人這三個層面都保持領先地位：

重新行業佈局：你的世界觀要怎樣改變才算足夠？你必須對行業典範進行怎樣的反思？
重新構建企業：你的企業需要做出什麼樣的變化？你準備如何重新定義你的公司？
重新打造自己：你需要成為怎樣的人？要重塑自己並在數字化+智慧化時代保有領先地位，你必須如何去做？

AI-CPS OS是數字化智慧化創新平臺，設計思路是將大資料、物聯網、區塊鏈和人工智慧等無縫整合在雲端，可以幫助企業將創新成果融入自身業務體系，實現各個前沿技術在雲端的優勢協同。AI-CPS OS形成的數字化+智慧化力量與行業、企業及個人三個層面的交叉，形成了領導力模式，使數字化融入到領導者所在企業與領導方式的核心位置：

精細：這種力量能夠使人在更加真實、細緻的層面觀察與感知現實世界和數字化世界正在發生的一切，進而理解和更加精細地進行產品個性化控制、微觀業務場景事件和結果控制。
智慧：模型隨著時間（資料）的變化而變化，整個系統就具備了智慧（自學習）的能力。
高效：企業需要建立實時或者準實時的資料採集傳輸、模型預測和響應決策能力，這樣智慧就從批量性、階段性的行為變成一個可以實時觸達的行為。
不確定性：數字化變更顛覆和改變了領導者曾經仰仗的思維方式、結構和實踐經驗，其結果就是形成了複合不確定性這種顛覆性力量。主要的不確定性蘊含於三個領域：技術、文化、制度。
邊界模糊：數字世界與現實世界的不斷融合成CPS不僅讓人們所知行業的核心產品、經濟學定理和可能性都產生了變化，還模糊了不同行業間的界限。這種效應正在向生態系統、企業、客戶、產品快速蔓延。

AI-CPS OS形成的數字化+智慧化力量通過三個方式激發經濟增長：

創造虛擬勞動力，承擔需要適應性和敏捷性的複雜任務，即“智慧自動化”，以區別於傳統的自動化解決方案；
對現有勞動力和實物資產進行有利的補充和提升，提高資本效率；
人工智慧的普及，將推動多行業的相關創新，開闢嶄新的經濟增長空間。

給決策制定者和商業領袖的建議：

超越自動化，開啟新創新模式：利用具有自主學習和自我控制能力的動態機器智慧，為企業創造新商機；
迎接新一代資訊科技，迎接人工智慧：無縫整合人類智慧與機器智慧，重新
評估未來的知識和技能型別；
制定道德規範：切實為人工智慧生態系統制定道德準則，並在智慧機器的開
發過程中確定更加明晰的標準和最佳實踐；
重視再分配效應：對人工智慧可能帶來的衝擊做好準備，制定戰略幫助面臨
較高失業風險的人群；
開發數字化+智慧化企業所需新能力：員工團隊需要積極掌握判斷、溝通及想象力和創造力等人類所特有的重要能力。對於中國企業來說，創造兼具包容性和多樣性的文化也非常重要。

子曰：“君子和而不同，小人同而不和。” 《論語·子路》雲端計算、大資料、物聯網、區塊鏈和人工智慧，像君子一般融合，一起體現科技就是生產力。

如果說上一次哥倫布地理大發現，擴充的是人類的物理空間。那麼這一次地理大發現，擴充的就是人們的數字空間。在數學空間，建立新的商業文明，從而發現新的創富模式，為人類社會帶來新的財富空間。雲端計算，大資料、物聯網和區塊鏈，是進入這個數字空間的船，而人工智慧就是那船上的帆，哥倫布之帆！

新一代技術+商業的人工智慧賽博物理作業系統AI-CPS OS作為新一輪產業變革的核心驅動力，將進一步釋放歷次科技革命和產業變革積蓄的巨大能量，並創造新的強大引擎。重構生產、分配、交換、消費等經濟活動各環節，形成從巨集觀到微觀各領域的智慧化新需求，催生新技術、新產品、新產業、新業態、新模式。引發經濟結構重大變革，深刻改變人類生產生活方式和思維模式，實現社會生產力的整體躍升。

產業智慧官 AI-CPS

用“人工智慧賽博物理作業系統”（新一代技術+商業作業系統“AI-CPS OS”：雲端計算+大資料+物聯網+區塊鏈+人工智慧），在場景中構建狀態感知-實時分析-自主決策-精準執行-學習提升的認知計算和機器智慧；實現產業轉型升級、DT驅動業務、價值創新創造的產業互聯生態鏈。

640?wx_fmt=png

長按上方二維碼關注微信公眾號： AI-CPS，更多資訊回覆：

新技術：“雲端計算”、“大資料”、“物聯網”、“區塊鏈”、“人工智慧”；新產業：“智慧製造”、“智慧金融”、“智慧零售”、“智慧駕駛”、“智慧城市”；新模式：“財富空間”、“工業網際網路”、“資料科學家”、“賽博物理系統CPS”、“供應鏈金融”。

官方網站：AI-CPS.NET

本文系“產業智慧官”（公眾號ID：AI-CPS）收集整理，轉載請註明出處！

版權宣告：由產業智慧官（公眾號ID：AI-CPS）推薦的文章，除非確實無法確認，我們都會註明作者和來源。部分文章推送時未能與原作者取得聯絡。若涉及版權問題，煩請原作者聯絡我們，與您共同協商解決。聯絡、投稿郵箱：erp_vip@hotmail.com

超詳細！如何準備機器學習競賽？
2018-05-03
機器學習
實戰 | 如何上線一個機器學習專案？
2018-05-08
機器學習
機器學習入門準備
2018-04-10
機器學習
機器學習入門系列(2)--如何構建一個完整的機器學習專案(一)
2019-01-26
機器學習
開源一個機器學習文字分析專案
2018-06-01
機器學習
你不應該忽略的五個機器學習專案
2019-07-18
機器學習
（一）機器學習和機器學習介紹
2021-09-09
機器學習
【機器學習】資料準備--python爬蟲
2022-06-22
機器學習Python爬蟲
一份 Python 機器學習線上指南
2019-05-16
Python機器學習
吳恩達《構建機器學習專案》課程筆記（1）– 機器學習策略（上）
2018-07-31
吳恩達機器學習筆記
機器學習之學習曲線
2019-09-18
機器學習
做機器學習專案的checklist
2020-01-21
機器學習
[譯] 機器學習專案清單
2019-02-18
機器學習
【機器學習】機器學習簡介
2018-11-29
機器學習
10個豐富自我的機器學習專案
2020-11-16
機器學習
如何準備機器學習工程師的面試？
2018-04-18
機器學習工程師面試
機器學習線上手冊：像背託福單詞一樣學機器學習
2020-04-06
機器學習
機器學習-習題(一)
2022-05-04
機器學習
AI投資中機器學習專案備受矚目
2019-05-12
AI機器學習
機器學習專案失敗的9個原因，你中招了嗎？
2018-08-08
機器學習
機器學習專案---預測心臟病（一）
2020-12-01
機器學習
做資料分析需要學習機器學習嗎？
2020-01-15
機器學習
一個完整的機器學習專案在Python中演練（四）
2018-10-11
機器學習Python
一個完整的機器學習專案在Python中演練（三）
2018-06-04
機器學習Python
[python學習]機器學習 -- 感知機
2020-10-19
Python機器學習
機器學習之超引數
2018-12-12
機器學習
機器學習面試準備大全 – 技能要求、面試例題詳解
2019-02-27
機器學習面試
機器學習面試準備大全 - 技能要求、面試例題詳解
2018-08-02
機器學習面試
【機器學習】--Python機器學習庫之Numpy
2018-04-06
機器學習Python
大型機器學習【Coursera 史丹佛機器學習】
2021-09-09
機器學習
機器學習-整合學習
2019-05-12
機器學習
如何學習機器學習
2019-02-01
機器學習
機器學習：詳解遷移學習（Transfer learning）
2024-07-18
機器學習遷移學習
Scikit-Learn 與 TensorFlow 機器學習實用指南學習筆記 5 —— 如何為機器學習演算法準備資料？
2019-01-02
機器學習筆記演算法
機器學習（——）
2018-06-19
機器學習
機器學習
2024-05-19
機器學習
【機器學習】深度學習與經典機器學習的優劣勢一覽
2018-04-22
機器學習深度學習
機器學習之分類：準確率
2020-06-27
機器學習

【機器學習】超詳細！上線一個機器學習專案你需要哪些準備？

價值主張

從資料中學習

進行預測

實時評估和監測

相關文章