什麼是AI建模?

banq發表於2021-08-11

模型是資料科學的核心輸出,它們具有改變公司、行業和社會的巨大力量。每個機器學習或人工智慧應用程式的核心是使用資料、演算法和程式碼構建的 ML/AI 模型。儘管模型看起來像軟體並涉及資料,但模型具有不同的輸入材料、不同的開發過程和不同的行為。建立模型的過程稱為建模。
 

什麼是建模?
模型是一種特殊型別的演算法。在軟體中,演算法是一組硬編碼的指令,用於計算確定性答案。模型是一種演算法,其指令是從一組資料中得出的,然後用於基於機率評估做出預測、建議或規定行動。該模型使用演算法來識別資料中與輸出形成關係的模式。模型可以比人類更準確地在事情發生之前進行預測,例如災難性的天氣事件或即將在醫院死亡的人。 
 

為什麼建模很重要?
模型顯著降低了預測成本,類似於半導體如何顯著降低算術成本。這種變化使模型成為競爭優勢、戰略和增長的新貨幣。模型可以相互建立。一個模型的輸出充當另一個模型的輸入,更多
複雜的模型,然後建立一個活躍的、相互聯絡的、可訓練的決策者軍隊。不管是好是壞,模型可以自主地這樣做,其速度和複雜程度是人類無法企及的。
對於模型驅動的組織,建模不僅僅是建立模型的過程。它是一個流程、工具和協議框架,可在資料科學生命週期 (DSLC) 的每一步為資料科學團隊提供支援。 
模型治理是建模的核心,它涉及從構建第一個模型版本到在生產環境中部署的最終模型的那一刻跟蹤模型工件。每次更改模型或使用新資料時,都會記錄新版本。持續監控模型的健康狀況,以觀察由於輸入資料的變化、市場的變化或任何其他輸入資料不再與構建模型時使用的資料平行的變化而可能出現的異常情況。不受監控的模型可能會開始產生不準確的答案,從而導致業務績效不佳,並在業務未意識到的情況下繼續這樣做。 
 

建模工具的型別
建模工具通常是基於程式碼的,儘管存在一些商業解決方案來建立沒有程式碼的簡單模型,並且存在多種語言的庫和框架來幫助資料科學家加速他們的工作。這些工具包含可用於快速有效地建立模型的演算法庫。許多建模工具是開源的並且依賴於 Python,儘管其他語言也很常用,例如 R、C++、Java、Perl 等等。一些流行的工具庫和框架是:

  • Scikit-Learn:用於機器學習和統計建模技術,包括分類、迴歸、聚類和降維以及預測資料分析。 
  • XGBoost:是一個開源庫,為各種程式語言提供正則化梯度提升框架。 
  • Apache Spark:是一個開源的統一分析引擎,專為擴充套件資料處理需求而設計。 
  • PyTorch:用於深度學習模型,如自然語言處理和計算機視覺。它基於 Python,由 Facebook 的 AI 研究實驗室開發,是一個開源庫。  
  • TensorFlow:類似於 PyTorch,這是一個由 Google 建立的開源 Python 庫,支援其他語言。它用於開發深度學習模型。
  • Keras:是一個構建在 TensorFlow 之上的 API,它提供了一個簡化的介面,需要最少的手動編碼。
  • Ray:是一個開源庫框架,具有簡單的 API,用於將應用程式從單個 CPU 擴充套件到大型叢集。
  • Horovod:是一個分散式深度學習訓練框架,可以與 PyTorch、TensorFlow、Keras 和其他工具一起使用。它用於同時跨多個 GPU 進行擴充套件。

有數以千計的工具可用,大多數模型需要最適合資料型別和業務問題的多種工具。
 

模型是如何構建的?
在商業環境中,新模型的誕生幾乎總是源於需要解決方案的問題,例如做出更明智的決策、自動化程式或在大量資料中尋找模式。 
一旦確定了該問題的解決方案,就會將其轉化為業務目標,例如預測庫存短缺或確定銀行客戶的信用額度。然後可以將其轉化為要使用 ML/AI 模型解決的技術問題。 
根據業務問題的型別和可用資料,確定最適合該問題的方法。有各種型別的機器學習方法,包括:

  • 監督學習:當您知道模型需要學習什麼時使用,通常用於預測、迴歸或分類。您將演算法暴露給訓練資料,讓模型分析輸出並調整引數,直到達到預期目標。 
  • 無監督學習:模型可以自由探索資料並識別變數之間的模式。這對於根據統計屬性對非結構化資料進行分組非常有用。因為它不需要培訓,所以這是一個更快的過程。
  • 強化學習:當模型需要與環境互動時,與 AI 或神經網路一起使用。當模型採取所需的行動時,它的行為會透過獎勵得到加強。 
  • 迴歸:用於訓練監督模型。它用於使用先前的資料集來預測或解釋數值,例如根據歷史經濟資料預測利率的變化。 
  • 分類:用於在監督學習中預測或解釋類值。這通常用於電子商務,例如預測客戶購買或對廣告的響應。 
  • 聚類:與無監督開發一起使用,這些模型根據相似性或共享屬性對資料進行分組。在商業中,這些可用於細分消費者市場。社交媒體和影片平臺可以使用聚類來推薦新內容。
  • 決策樹:使用演算法透過回答有關物件屬性的問題來對物件進行分類。根據答案,例如“是”或“否”,模型會繼續處理另一個問題,然後再處理另一個問題。這些模型可用於預測定價和客戶服務機器人。
  • 深度學習:旨在複製人腦的結構。這也稱為神經網路,其中數百萬個連線的神經元建立了一個複雜的結構,可以多次處理和重新處理資料以得出答案。 

獲取資料後,根據特定方法的需要進行準備,可能包括從資料集中刪除不必要的或重複的資料。然後,資料科學家將使用不同的演算法進行實驗,並比較不同資料集的效能。例如,影像識別模型將在一組影像上進行訓練,然後在一組新影像上進行測試,以確保其按要求執行。一旦效能滿足業務問題的需求,就可以部署了。  

 

相關文章