【人工智慧】深度學習、資料庫選擇和人工智慧的革命;人工智慧是解鎖IoT潛力的鑰匙

產業智慧官發表於2018-03-08

深度學習(DL)和人工智慧(AI)已經不再是科幻小說中遙不可及的目標,目前已成為了網際網路和大資料等領域的前沿研究內容。

由於雲端計算提供強的計算能力、提出的先進演算法以及充裕的資金,這創造了五年前難以想象的新技術。此外,層出不窮的豐富資料也使得深度學習成為了現實。

相關內容分成四個部分,主要深入探索深度學習、資料庫的選擇以及相關實際商業應用問題等。

  • 在今天的第I部分內容中,主要是講解人工智慧的歷史以及它現在高速發展的原因;

  • 在第II部分內容中,將討論一下人工智慧、機器學習和深度學習之間的區別;

  • 在第III部分內容中,將深入研究深度學習以及在為新專案選擇資料庫時需要評估的關鍵事項;

  • 在第IV部分內容中,將討論深度學習為何使用MongoDB,並提供相關使用例項;

640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1

第I部分

640?wx_fmt=jpeg&wxfrom=5&wx_lazy=1

人工智慧的歷史

我們目前生活在人工智慧開始嶄露頭角的時代,人工智慧不僅創造了擾亂工業和變革工作場所的可能性,而且還可以解決一些社會上的挑戰。比如自動駕駛可以挽救數萬人的生命、增加老年人和殘疾人的流動性,精準醫學可以開展個體化治療以延長生命,智慧建築有助於減少碳排放並節約能源等,這些只是人工智慧承諾的一些潛在的好處,並且大多已經取得相關突破性的進展。

到2018年,Gartner公司估計機器將佔全球所有業務內容的20%,並預計60億個聯網裝置將產生大量的資料。人工智慧對理解這一切顯得至關重要,AI不再侷限於科幻電影中,人工智慧和機器學習正在被現實世界中的相關業務採用。

自從艾倫·圖靈(Alan Turing)於1950年寫了篇論文《計算機器與智慧》以來,人工智慧一直是人們的一個夢想。在這篇論文中,圖靈提出了一個根本性的問題——“機器能思考嗎?”,並考慮計算機是否能像人類那樣進行思考。人工智慧領域的研究真正誕生於1956年的夏天,一組聚集在達特茅斯學院(Dartmouth College)的研究人員發起了一系列的研究專案,他們的目標是讓計算機做出像人類一樣行為。“人工智慧”這一詞也是第一次在這所學院被創造出來,該會議的概念形成了一個合法的跨學科交流的研究領域。

在接下來的十年中,隨著新技術的發展受到當代技術的限制,人工智慧的發展經歷了繁榮和蕭條週期。在1968年,科幻電影《2001:太空漫遊》中的智慧電腦——HAL9000說了一句著名的話,“對不起,戴夫,恐怕我不能那麼做”,這幫助AI在主流意識中留下了不可磨滅的印象。在20世紀70年代末,電影《星球大戰》中智慧機器人幫助拯救銀河的場景進一步鞏固了AI在主流文化中的地位。

但直到20世紀90年代末,人工智慧才開始從科幻傳說轉變為現實世界中的實際應用。1997年初,由IBM的深藍國際象棋程式擊敗了當時的世界冠軍Garry Kasparov,人工智慧在上世界90年代迎來了一個新的時代,AI的研究進展也開始加速。研究人員變得開始關注人工智慧的相關子問題,並利用它來解決現實世界中的應用任務,比如影像和語音識別等。研究人員沒有試圖構造由專家知識決定的邏輯規則,而是開始研究如何通過演算法學習邏輯規則本身,這一趨勢有助於將研究重點轉移到人工神經網路(ANNs)中。

在20世紀40年代,人工神經網路被發明成“鬆散地”模仿人腦的學習方式。當反向傳播梯度下降演算法得到改進時,人工神經網路的研究於1986年開始變得流行起來,反向傳播演算法減少了人工神經網路訓練時需要大量手工調參問題,因此反向傳播演算法(BP)也是一種有效的減少人工智慧訓練時間的方法。

即使在演算法方面取得新的進展,但神經網路仍然受到技術上的限制,這些限制也影響了ANNs在過去幾十年的應用情況。直到2000年中期,人工智慧才重新掀起一次科技浪潮。在2006年,多倫多大學的Geoffrey Hinton提出對人工神經網路進行修改,並將其研究成果稱為“深度學習(Deep Neural Network)”。Hinton對人工神經網路新增多個隱藏層並對每層進行數學優化,逐層學習使得模型訓練變得更快。在2012年,史丹佛大學的Andrew Ng進一步推動了深度學習的發展,他建造了一個簡陋的利用圖形處理單元(GPU)實現深度神經網路的模型,Andrew Ng發現叢集GPU模擬訓練深度學習模型比通用的CPU訓練快得多,對於同樣的任務而言,GPU可能只需要一天的時間,而CPU需要幾周的時間才能產生相同的結果,這是由於GPU是大規模並行架構,而且能同時處理多個任務。

從本質上講,將軟體演算法與高效能的硬體相結合已經醞釀了幾十年,這也將迎來AI正在經歷的快速發展。

人工智慧現在為什麼高速發展?

目前有四個主要因素推動了人工智慧的發展:

1.更豐富的資料。人工智慧需要大量的資料來學習,社交的數字化為其進步提供了可利用的原材料。諸如物聯網(感測器等)、社交和移動計算、科學和學術界、醫療保健以及許多新的應用程式等來源的大資料可以用來訓練人工智慧模型。不出意料,目前在人工智慧領域投資較多的公司,比如亞馬遜、蘋果、百度、谷歌、微軟等,同時也是資料較多的公司。

2.更便宜的計算成本。在過去,即使人工智慧相關演算法得到改進,硬體仍然是一個制約因素。由於硬體和新的計算模型取得新的突破,尤其是GPU,加速了人工智慧的發展過程。GPU由於其自身的並行處理能力及高效的執行矩陣乘法的方式使得其在人工智慧社群得到普及應用,這也締造了英偉達這一優秀公司的行業地位。 最近,英特爾在Xeon和Xeon Phi處理器中增加了新的深度學習指令,這允許其能更好地進行並行和高效的矩陣運算。隨著人工智慧技術的應用,硬體廠商現在需要專門針對人工智慧進行開發、設計和製造相關產品,這些進步將導致更好的硬體設計、效能、功耗以及配置檔案。

3.更復雜的演算法。更高效的效能和更便宜的計算花費使得科研人員能夠開發和訓練更高階的演算法,這是因為他們不再受限於過去硬體約束的限制。因此,深度學習現在正以驚人的精確度解決特定的問題(例如,語音識別、影像分類、手寫識別、欺詐檢測等),更先進的演算法繼續推動人工智慧技術的發展。

4.更廣泛的投資。在過去的幾十年中,人工智慧的研究和發展主要侷限於大學和研究院等機構。資金缺乏以及人工智慧問題的困難性導致其發展甚微。如今,人工智慧投資不再侷限於大學實驗室,而是在許多領域都在進行發展——政府、風險資本支援的初創公司、網際網路巨頭和各行業的大型企業等。

640?wx_fmt=jpeg

第II部分

640?wx_fmt=jpeg

人工智慧、機器學習和深度學習之間的區別

在很多情況下,人工智慧、機器學習和深度學習可以互換使用。但實際上,機器學習和深度學習都是人工智慧的子集。人工智慧作為電腦科學研究領域中的一個分支,其重點是建立能夠具有智慧行為的機器,而機器學習和深度學習則是利用演算法篩選資料,並從資料中學習、預測或採取自主行動的實踐。因此,這些演算法不需要根據特定的約束進行程式設計,而是使用大量資料進行訓練,使其能夠獨立學習、推理和執行特定的任務。

640?wx_fmt=jpeg

那麼,機器學習和深度學習之間存在哪些區別呢?在定義深度學習之前,先深入地理解機器學習吧。

機器學習:有監督VS.無監督

機器學習方法主要分成兩大類:有監督學習和無監督學習。

有監督學習:目前,有監督學習是機器學習中最為常用的演算法。在有監督學習的情況下,相關演算法的輸入是開發人員和分析人員手動標記的資料,即有標記的資料,這些標記就是資料的期望輸出值,使用這些資料來訓練模型並生成預測。監督學習任務又可以分為兩大類:迴歸和分類問題。

640?wx_fmt=jpeg

上圖演示了一個簡單的迴歸問題。從圖中可以看到,存在兩個輸入或特徵(平方英尺和價格),被用於生成擬合曲線,並預測未來的房地產價格。這個模型相當簡單,只考慮了房子的面積這一個特徵對房價的影響,在國內的話,如果只考慮這房子面積這一個特徵就去購買或投資房產的話,將會鬧出笑話。因此,一般而言,考慮的特徵越多,模型會越複雜,預測也會更加準確。

640?wx_fmt=jpeg

上圖演示了一個有監督分類問題。使用的資料集是有標記為良性腫瘤和惡性腫瘤的乳腺癌患者。有監督分類演算法試圖通過將資料擬合成直線將腫瘤劃分為兩種不同的類別。當演算法學習好後,即劃分直線確定,將來的資料可以之間通過這條劃分直線來確定患者的腫瘤是良性或惡性。分類問題導致離散輸出,但不一定限制固定資料集的輸出數量,上圖中只有兩個離散輸出,但可以有更多分類類別(1表示良性,2表示惡性,3表示待定等)。

無監督學習。在有監督學習的示例中,可以看到使用的資料集都具有標記(良性或惡性分類),資料標記有助於演算法確定正確的答案是什麼,進而調整模型引數以使得模型輸出儘可能與標記相近。而在無監督學習中,資料集是不具有標記的,需要依賴於演算法來發現資料中的結構和模型。

640?wx_fmt=jpeg

從上圖中可以看到,每個資料點代表的資訊不明確,因此要求演算法在不受任何監督的情況下查詢資料中存在的結構資訊。圖中的無監督學習演算法可以確定兩個不同的叢集,並在叢集之間進行直線分類。無監督學習廣泛應用於新聞、社會網路分析、市場分割及銀河系周圍的天文分析等許多應用案例中。

640?wx_fmt=jpeg

第III部分

640?wx_fmt=jpeg

深度學習是什麼?

深度學習是機器學習研究領域中的一個分支,近年來在影像識別、自然語言處理和影像分類等領域應用十分火熱,受到世界範圍內的廣泛關注。深度學習是人工神經網路(ANN)的一種改進,正如人工神經網路一樣,是模擬人類大腦學習和解決問題的一種方法。

在深入瞭解深度學習的工作原理前,首先理解人工神經網路(ANN)是如何工作的。人工神經網路是由一組互相連線的神經元組成,類似於人類大腦中的神經元網路。

640?wx_fmt=jpeg

上圖是一個簡化的神經元連線示意圖。神經網路中的每個神經元接收與之連線的其它神經元的輸入資訊(Xi),然後通過計算後輸出到網路中的其它神經元或節點。神經元之間的連線引數用權重(Wj)表示,權重的大小表示二者連線的強度,權重的值可正可負。將所有的輸入資訊都與對應的連線權重相乘(X1W1,X2W2等)並進行求和作為該節點的輸出。最後一步是對神經元執行計算或啟用函式處理。啟用函式允許人工神經網路模擬簡單模式無法正確表示的複雜的非線性問題,常用的啟用函式是Sigmoid函式。

640?wx_fmt=jpeg

上圖表示一個三層的神經網路,從左往右第一層為輸入層,輸入對應的特徵(X1,X2,X3),第二層被稱作隱藏層,隱藏層可以有多層,第三層是輸出層。對於一個層而言,只要該層不是輸入層或輸出層,那麼該層就可以稱作隱藏層。

“深度”學習最初就是這樣產生的,因為其含有多個隱藏層,通常包含多於3個的隱藏層。在一些情況下,隱藏層的個數高達1200多個。

多個隱藏層的好處是什麼呢?在某些模式下,可能需要更加深入的調查,因此多個隱藏層可以進行額外的特徵處理。深度學習在影像分類領域中表現優異,甚至在某些特定任務上超過了人類的表現。現在,通過一個額外隱藏層有助於面部識別的例子來說明這一點。

640?wx_fmt=jpeg

當一張圖片被輸入到一個深層次的學習網路中時,它首先被分解成影像畫素。然後該演算法將在影像中的某些位置尋找特定形狀的圖案。第一個隱藏層可能試圖揭示特定的面部模式:眼睛、嘴巴、鼻子、耳朵等。新增一個額外的隱藏層來解析更加細粒度的屬性。例如,“嘴巴”可以進一步分解為“牙齒”、“嘴脣”、“牙齦”等。新增額外的隱藏層可以將這些模式更進一步抽象。最終的結果是一個深層的學習網路可以將一個非常複雜的問題分解成一系列簡單的問題。隱藏層的本質是一個層次化的特徵學習,它們能夠更好地提取特徵。目前,大多數深度學習演算法都是有監督學習,即對已知的標記資料進行深度學習。

訓練是如何工作的?

訓練深度學習的最終目的是降低代價函式,即期望輸出與實際輸出之間的差異儘可能小。節點之間的連線將會有特定的權重,不斷修改這些權重引數使得網路的代價函式變小。通過修改權重值,可以將代價函式最小化到全域性最小值,這意味著模型的誤差降到最小值。深度學習之所以計算如此密集就是因為它需要找到合適的數以十億的連線權重值,這需要通過不斷迭代訓練調整得到,以找到使得代價函式全域性最小值的權重集。

640?wx_fmt=jpeg

深度學習中最為常用的訓練方法是反向傳播梯度下降演算法。梯度下降演算法是一種有效的數學優化方法,它能有效地處理大量的資料(特徵),而不必強力進行維度分析。梯度下降演算法根據權重函式的全域性最小值來計算梯度(斜率)。

在訓練過程中,首先隨機分配權重並計算出一個誤差。然後基於這個誤差,通過使用梯度下降演算法來修改權重,之後反向逐層調整每層的權重引數,當調整完每層引數後又正向進行傳播,計算得到一個新的誤差,之後基於新的誤差調整每層的引數,一直迭代到代價函式達到全域性最小值為止。可能會出現一些例子,梯度下降演算法是以區域性最小值而不是全域性最小值來計算的,減輕這個問題的方法是使用凸的代價函式或對引數產生更多的隨機性。

深度學習中對資料庫的思考

非關聯式資料庫在促進機器學習和深度學習技術的最新進展中起著不可或缺的作用。收集和儲存大量結構化和非結構化的資料的能力為提升深度學習預測提供的必要的原材料。在構建深度學習應用程式時,選擇用於管理底層資料的資料庫時要牢記一些注意事項。

  • 靈活的資料模型。在深度學習中,資料需要經歷三個階段——輸入資料、訓練資料和結果資料。深度學習是一個動態的過程,通常涉及大量的實驗,比如,實驗過程中引數調整是很正常的事情,加上非結構化資料的輸入、輸出結果的修改是自然而然地發生。隨著新的資訊和見解被發現,重要的是在靈活資料模型上選擇一個合適的資料庫,避免在資料結構需要改變時需要執行昂貴的模式遷移。

  • 規模。深度學習面臨的最大挑戰之一是模型訓練耗費的時間比較長,有些模型可能需要幾個星期的訓練時間,這是由於梯度下降等演算法需要通過多次迭代來調整模型的數十億個引數。為了減少訓練次數,深度學習框架嘗試並行運算,將訓練負荷分佈到多個高效能的伺服器上。

並行化訓練主要有兩種方式:資料並行性和模型並行性。

  • 資料並行性。通過分散式系統將資料分割成多個節點進行處理並儲存,比如Apache Spark、MongoDB和Apache Hadoop。

  • 模型並行性。通過相關軟體庫和框架在多個節點上分割模型及其相關層,如TensorFlow、Caffe和Theano。分裂提供並行性,但是在協調不同節點之間的輸出時會產生效能代價。

除了模型訓練階段耗費時間長外,深度學習的另一個大挑戰是輸入資料集不斷增長,這增加了訓練引數的數量。這不僅意味著輸入資料集可能超過可用的伺服器記憶體,而且還意味著涉及梯度下降的矩陣也能超過節點的記憶體。因此,縮放比擴充套件更加重要,這使得工作負載和相關的資料集在多個節點上分佈,允許並行執行計算。

  • 容錯。許多深度學習演算法使用檢驗點作為故障發生時恢復訓練資料的一種方法。然而,頻繁設定的檢查點需要大量的系統開銷。另一種方法是利用駐留在分割節點上的多個資料副本,這些副本提供冗餘和資料可用性,而無需消耗系統主節點上的資源。

  • 一致性。對於大多數深度學習演算法而言,建議使用強資料一致性模型,具有強一致性的分散式資料庫叢集中每個節點都執行在最新的資料副本上。雖然有些演算法可以容忍一定程度的不一致性,比如隨機梯度下降演算法(SGD),但強一致效能夠提供最精確的結果。然而,在某些情況下,演算法更加看重訓練時間而不是精度,那麼最終的一致性是可以接受的。為了優化精度和效能,資料庫應該提供可調的一致性。

640?wx_fmt=jpeg

第IV部分

640?wx_fmt=jpeg

為什麼MongoDB適合深度學習?

如果你沒有閱讀第III部分的內容,強力推薦閱讀一下,以更多地瞭解在做深度學習專案時選擇資料庫應該考慮的關鍵因素有哪些。在以下的講解部分中,開發者和資料科學家可以利用MongoDB作為一個靈活、可擴充套件、高效能的分散式資料庫來滿足人工智慧應用開發的嚴峻考驗。

  • 靈活的資料模型

MongoDB的文件資料模型,便於開發者和資料科學家儲存和結合其他任何資料庫的資料,且沒有放棄利用複雜的驗證規則來管理資料的質量。該模式可以在不停用應用程式或資料庫的情況下動態地修改資料,這是由關聯式資料庫系統的模式修改或重新設計的代價高所引起的。

這種資料模型的靈活性對於深度學習是特別有價值的,這需要不斷的實驗來發現新的見解和預測:

  • 輸入資料集可以包括快速變化的結構化資料和非結構化資料,這些資料集可以從點選流、日誌檔案、社交網路和物聯網感測器流、CSV檔案、txt文字、影像、視訊等,這些資料集很多都不能對映成關聯式資料庫固定的行和列格式。

  • 深度學習的訓練過程中往往會增加新的隱藏層、特徵標籤、引數以及輸入資料,這需要頻繁地修改底層資料模型。

  • 因此,一個支援各種輸入資料集的資料庫能夠無縫地修改模型訓練的引數,這對於深度學習而言是不可多得的。

  • 豐富的程式設計和查詢模型

MongoDB為開發者和資料科學家提供本地驅動程式和認證連線來建立深度學習模型,PyMongo驅動器是一個用於MongoDB的Python工具,也是一個被推薦的Python操作MongoDB資料庫的方式。社群也開發了R語言的MongoDB客戶端,這也可用於R語言程式設計師。

MongoDB的查詢語句和豐富的二級索引使得開發人員能夠開發應用程式,可以以多種方式查詢和資料分析。資料可以在毫秒級的響應時間內通過單鍵、範圍、文字搜尋、圖表和地理空間查詢到複雜的聚合和MapReduce任務。

為了在分散式資料庫叢集上並行處理資料,MongoDB提供了聚合管道(aggregation pipeline)和MapReduce。MongoDB聚合管道是仿照資料處理管道的基本原理設計,資料經過一個一個的階段,每階段將資料處理後的結果傳遞給下一個階段,最終得到多重處理後的結果。其中,最基本的管道階段提供像查詢等操作的過濾器及輸出文件格式的轉換等功能,其它管道操作提供按特定欄位對文件進行分組、排序以及聚合陣列中的內容等功能。此外,管道階段可以使用操作符進行相關計算,比如計算跨文件集合的平均值或標準差等。MongoDB同樣也提供了原生MapReduce操作,使用JavaScript函式來執行相關的map和reduce階段。

除了原生的查詢框架外,MongoDB同樣也提供了針對Apache Spark的一種高效能聯結器,該聯結器連線了Spark所有的庫,包括Python、R、Scala和Java。對於機器學習、圖表以及SQL API等分析而言,MongoDB資料可以作為其資料幀和資料集。

640?wx_fmt=jpeg

針對於Apache Spark的MongoDB聯結器可以利用好MongoDB的聚合管道以及提取、篩選和處理其所需資料範圍的二級索引。比如,分析特定地理位置的所有客戶這一任務,簡單的非關係資料儲存不支援二級或在資料庫中聚合。而在這種情況下,Spark需要基於簡單的主鍵提取所有資料,這意味著資料科學家和工程師們在進行該過程時需要更多的時間上和硬體上的開銷。為了最大限度地提高效能,對於分散式資料集而言,MongoDB聯結器可以將彈性分佈資料集(RDDs)和源MongoDB節點同地協作,進而最小化跨叢集之間的資料移動並減少延遲。

  • 可升縮性和冗餘性

模型的訓練時間可以通過建立一個深度學習平臺以及可擴充套件資料庫層來減少,MongoDB提供了以下一些措施來儘可能地增大吞吐量以及儘可能地減少深度學習工作負載的延遲。

WiredTiger是MongoDB的預設儲存引擎,也是世界上部署最廣泛的嵌入式資料管理軟體,它是基於現代多核架構,並使用了多種程式設計技術,如風險指標、無鎖演算法、快速鎖定和訊息傳遞等。WiredTiger儘可能地增大每個CPU核和時鐘週期內的計算工作量,此外,WiredTiger使用緊湊的檔案格式和壓縮儲存儘可能地減少磁碟開銷。

對於大多數對延遲敏感的深度學習應用而言,MongoDB可以配置儲存引擎。基於WiredTiger這個儲存引擎,可以在不犧牲傳統資料庫提供的豐富靈活查詢、實時分析和可升縮能力的情況下,為使用者提供記憶體計算的好處。

為了並行地進行模型訓練以及縮放輸入資料集,MongoDB使用分片(sharding)技術。MongoDB分片是完全彈性地、自動地調整叢集中的資料作為輸入資料集的增長,或者是新增和刪除節點。

在MongoDB叢集中,每個分片資料自動分發到多個駐留在不同節點上的多個副本,其副本集提供冗餘性以在訓練資料發生故障時恢復資料,並減少檢查點的開銷。

  • 可調一致性

在一般情況下,MongoDB具有強一致性。啟動深度學習應用程式可用立體讀取已寫入的資料庫中的內容,從而避免了最終一致性系統導致的開發人員複雜。強一致性會為機器學習演算法提供最準確的結果,然而,在某些情況下,如隨機梯度下降演算法(SGD),其結果不是很好但尚可接受。

MongoDB人工智慧部署情況

基於MongoDB具備上述討論的性質,MongoDB已經作為許多人工智慧和深度學習平臺的資料庫,不同應用程式和行業使用者的選擇如下:

  • IBM Watson:分析與視覺化

沃森分析是IBM的雲託管服務,提供智慧資料發現來指導資料探索、自動預測分析和視覺化輸出。沃森分析應用場景十分廣泛,比如銀行、保險、零售、電信、石油和政府應用等。MongoDB被用來管理資料儲存,提供所有源資料集的後設資料和分析視覺化,並儲存在豐富的JSON文件結構中,可以支援數以萬計的使用者併發訪問服務。

  • x.ai:個人助理

x.ai是智慧驅動的個人助理,它能夠為使用者安排會議。使用者將他們的日曆連線到x.ai上,然後只要郵件抄送給amy@x.ai,該公司的虛擬私人助理Amy就能接手你的會議日常安排。MongoDB作為x.ai的整個平臺記錄系統,支援所有的服務,包括自然語言處理、有監督學習、分析和電子郵件通訊等。MongoDB靈活的資料模型成為使得x.ai迅速適應於訓練集和輸入資料集的關鍵,同時也支援複雜的資料結構。更多內容可以看此案例瞭解。

  • 汽車貿易商:預測價值

英國最大的汽車市場廣泛應用機器學習,使用的關於車的規格及細節資料都儲存在MongoDB中。比如,先前車主的個數、顏色、里程數、保險歷史等。這些資料由汽車貿易商的資料科學團隊編寫的機器學習演算法提取得到,並建立模型以預測準確的價值,然後再寫入資料庫中,選擇MongoDB由於其靈活的資料模型和分散式設計。更多內容可以看此案例瞭解。

  • Mintigo:銷售和市場預測

Mintigo是一家以企業為重點的預測市場和銷售的平臺。在B2B營銷領域,Mintigo利用資料進行營銷分析和預測,識別最有可能購買其產品的潛在客戶,幫助公司客戶提升銷量。Mintigo執行在AWS上,是用Python編寫的機器學習演算法。MongoDB被用來儲存TB量級的資料集,這是看中了其資料流採集和儲存的可擴充套件性和靈活性、高效的查詢框架和二級索引,而無需掃描資料庫中的所有記錄。更多內容可以看此案例瞭解。

  • 零售定位分析

一個美國的移動APP開發者在MongoDB上建立的智慧引擎,實時處理和儲存數以百萬計顧客的豐富地理空間資料點。該智慧引擎使用可伸縮的機器學習和多維分析技術來展示行為模式,允許零售商通過移動裝置預測和定位目標客戶。MongoDB支援具有複雜索引和查詢的空間資料結構,為機器學習演算法提供基礎。MongoDB的分片擴充套件設計使得公司可以容納10-100百萬的客戶資料點。

  • 自然語言處理(NLP)

一個北美的人工智慧開發者已經構建了由主要消費電子產品嵌入到智慧家居和移動裝置中的自然語言處理軟體。裝置和使用者之間的所有互動都儲存在MongoDB中,然後反饋給學習演算法。選擇MongoDB的原因是其架構的靈活性,且支援快速變化的資料結構。

  • 將資料科學引入人才招聘

該公司與財富500強的人力資源部門合作,利用資料科學和員工情況處理成堆的簡歷和候選者。該公司通過將人工智慧應用於簡歷以外的資料數千個資訊源,包括公共的和企業資料,為申請者提供實時分析和優先次序。通過人工智慧演算法產生的預測分析,招聘人員可以立即確定主動申請以及潛在的應聘者中最佳的候選人,加快整個招聘過程、降低僱傭成本。選擇MongoDB作為底層資料庫是由於其資料模型的靈活性和可伸縮性,此外,大範圍的安全管理權保護了個人可識別資訊(PII)。



人工智慧是解鎖IoT潛力的鑰匙

海外華文客戶端 

德勤報告表示物聯網變得更加智慧。公司正在將人工智慧(特別是機器學習)整合到他們的物聯網應用程式中,並觀察功能的增長,包括提高運營效率並幫助避免意外停機。關鍵:洞察資料。

640?wx_fmt=jpeg

ITH是一波投資,一系列新產品和企業部署的崛起,人工智慧正在物聯網(IoT)中掀起一陣熱潮。制定物聯網戰略,評估潛在的新物聯網專案或試圖從現有物聯網部署中獲得更多價值的公司可能需要探索人工智慧的作用。

訊號

以人工智慧為重點的物聯網創業公司的風險投資正在快速增長:2017年前8個月,這個類別的初創公司籌集了7.05億美元

以人工智慧為重點的物聯網創業公司併購數量增加:2017年前8個月為21個,2016年為24個,高於2015年的11個

包括亞馬遜,通用電氣,IBM,微軟,甲骨文,PTC和Salesforce在內的IoT平臺供應商正在整合AI功能

跨行業的大型組織已經在利用物聯網來藉助或探索人工智慧的力量,提供新產品並更高效地運營

Gartner預測,到2022年,超過80%的企業物聯網專案將包含一個AI元件,今天只有10%

AI是解鎖物聯網潛力的鑰匙

人工智慧在物聯網應用和部署中扮演著越來越重要的角色,這一領域的公司行為顯然發生了變化。使用AI的物聯網初創企業的風險投資大幅增加。在過去的兩年裡,公司已經收購了數十家在人工智慧和物聯網交叉點工作的公司。物聯網平臺軟體的主要供應商現在提供整合的AI功能,如基於機器學習的分析。

人工智慧在物聯網中扮演著主要角色,因為它能夠快速從資料中獲取洞察力。機器學習是一項人工智慧技術,它可以自動識別模式並檢測智慧感測器和裝置生成的資料中的異常情況,諸如溫度,壓力,溼度,空氣質量,振動和聲音等資訊。各公司發現機器學習可以比傳統的商業智慧工具在分析物聯網資料方面具有顯著優勢,包括能夠比基於閾值的監控系統提前20倍和更高的準確度進行運營預測。而其他人工智慧技術,如語音識別和計算機視覺可以幫助從過去需要人工評估的資料中獲得見解。

AI和物聯網技術的強大組合幫助公司避免意外停機,提高運營效率,啟用新產品和服務,並加強風險管理。

避免昂貴的非計劃停機時間

在一些行業中,裝置故障導致的意外停機可能造成嚴重損失。例如,根據一項研究,海上石油和天然氣經營者每年平均損失3800萬美元。另一個訊息估計,對於工業製造業來說,意外停機時間每年花費500億美元,裝置故障導致42%的停機。

使用預測性維護分析功能提前預測裝置故障,以便安排有序的維護程式,可以減少非計劃停機的破壞性經濟性。例如,在製造業中,德勤發現預測性維護可以將維護計劃縮短20-50%,將裝置正常執行時間和可用性增加10-20%,並將整體維護成本降低5-10%。

由於人工智慧技術,特別是機器學習,可以幫助識別模式和異常情況,並基於大量資料進行預測,因此它們在實施預測性維護方面尤其有用。例如,領先的韓國煉油商SK Innovation通過使用機器學習預測連線的壓縮機預計故障可節省“數十億韓元”。同樣,義大利列車運營商Trenitalia希望避免意外停機,並節省8-10%的年度維護成本13億歐元。與此同時,法國電力公司EDF集團已經通過機器學習驅動的裝置故障預警節省了超過100萬美元。

提高運營效率

人工智慧驅動的物聯網可以做的不僅僅是幫助避免意外停機。它還可以幫助提高運營效率。這部分得益於機器學習的力量,以產生快速、準確的預測和深刻見解,以及AI技術能夠使越來越多的任務自動化完成。

例如,對於Hershey來說,在生產過程中管理其產品的重量至關重要:重量精度每提高1%,就意味著可以為14,000加侖的Twizzlers等一批產品節省超過500,000美元的成本。該公司使用物聯網和機器學習來顯著是減少生產過程中的重量變化。第二個資料被捕獲和分析,重量變化可以通過機器學習模型進行預測,每天可以進行240個工藝調整,而安裝ML驅動的IoT解決方案前每天僅有12個。

基於人工智慧的預測也有助於谷歌削減40%的資料中心冷卻成本。該解決方案通過對設施內感測器資料進行培訓,預測下一小時的溫度和壓力,以指導限制功耗的操作。

機器學習產生了深刻的見解,說服一家船隊運營商採取反直覺行動,為他們節省了大筆資金。從船載感測器收集的資料被用來識別清洗船體的成本和燃油效率之間的相關性。分析表明,通過每年清洗船體兩次而不是每兩年清潔船體(從而將清潔費用翻兩番),由於燃油效率更高,最終可節省40萬美元。

實現新的和改進的產品和服務

物聯網技術與人工智慧相結合,可以為改進並最終實現全新的產品和服務奠定基礎。例如,對於通用電氣的無人機和基於機器人的工業檢測服務,公司希望AI能夠實現檢測裝置的導航自動化,並從他們捕獲的資料中識別缺陷。這可能會導致更安全,更精確,並且為客戶提供便宜高達25%的檢查。在醫療保健方面,費城托馬斯傑佛遜大學醫院試圖通過自然語言處理改善患者體驗,使患者能夠控制房間環境並通過語音命令請求各種資訊。

與此同時,勞斯萊斯計劃儘快推出具有物聯網功能的飛機發動機維護服務新產品。該公司計劃使用機器學習來幫助其發現模式並確定將出售給航空公司的運營見解。汽車製造商Navistar正在研究實時連線車輛資料的機器學習分析,以實現車輛健康診斷和預測性維護服務的新收入流。根據Navistar技術合作夥伴Cloudera的說法,這些服務幫助近30萬輛汽車減少了高達40%的停機時間。

加強風險管理

將物聯網與AI結合在一起的許多應用程式,正在幫助企業更好地理解和預測各種風險,以及自動執行快速響應,使他們能夠更好地管理工作人員安全,財務損失和網路威脅。

例如,富士通已經在使用機器學習技術來分析連線可穿戴裝置的資料,以評估其工廠工人可能會在一段時間內積累的潛在熱應力。印度和北美的銀行已經開始對ATM機中聯網監控攝像頭的可疑活動進行實時識別。汽車保險公司進步正利用機器學習對聯網汽車的資料進行分析,從而準確地為其基於美國的保費定價,從而更好地管理承保風險。拉斯維加斯已經轉向了一種機器學習解決方案,以確保其智慧城市計劃的安全,旨在實時檢測和應對威脅。

對企業的影響

對於不同行業的企業,人工智慧有望提升物聯網部署所創造的價值,從而實現更好的產品和運營,從而在業務績效中發揮競爭優勢。

考慮新的基於物聯網專案的高管們應該意識到,預測功能的機器學習現在已經與大多數橫向和工業物聯網平臺整合在一起,如微軟 Azure 物聯網,IBM 沃森物聯網T,亞馬遜AWS物聯網,通用電氣Predix和PTC ThingWorx。

越來越多的交鑰匙,捆綁或垂直物聯網解決方案利用機器學習等AI技術。例如,對於連線汽車的使用案例,寶馬的CarData平臺可以訪問車主分享的資料以及IBM 沃森物聯網的AI功能。在消費品和零售業中,一些補貨自動化和優化解決方案使用機器學習來預測需求並優化庫存水平。汽車保險行業的遠端資訊處理解決方案提供商正在整合機器學習,以建立更準確的風險模型並預測索賠行為。

使用人工智慧技術可能會從物聯網部署中獲得更多價值,而這些部署並非是在設計時考慮到使用人工智慧而設計的。例如,一家匈牙利石油和天然氣公司將機器學習應用於柴油生產過程中已經收集到的感測器資料。該分析使公司能夠更準確地預測燃料的硫含量,並幫助識別過程改進,現在每年為該公司節省超過600,000美元。主要的橫向和工業物聯網平臺 —— 企業可能已經在使用 —— 正在提供新的基於人工智慧的功能,可能有助於提升現有部署的價值。

物聯網的未來就是AI

很快就很難找到一個不能使用AI的物聯網實現。國際資料公司IDC預測,到2019年,AI將支援“所有有效的”物聯網工作,如果沒有人工智慧,部署的資料將具有“有限的價值”。越來越多的物聯網供應商提供至少基本的AI支援。各行業的先鋒公司已經在其物聯網部署中獲得了AI的好處。如果你的公司有實施基於物聯網的解決方案的計劃,那麼這些計劃也應該包括人工智慧。

640?wx_fmt=png

人工智慧賽博物理作業系統

AI-CPS OS

人工智慧賽博物理作業系統新一代技術+商業作業系統“AI-CPS OS:雲端計算+大資料+物聯網+區塊鏈+人工智慧)分支用來的今天,企業領導者必須瞭解如何將“技術”全面滲入整個公司、產品等“商業”場景中,利用AI-CPS OS形成數字化+智慧化力量,實現行業的重新佈局、企業的重新構建和自我的煥然新生。


AI-CPS OS的真正價值並不來自構成技術或功能,而是要以一種傳遞獨特競爭優勢的方式將自動化+資訊化、智造+產品+服務資料+分析一體化,這種整合方式能夠釋放新的業務和運營模式。如果不能實現跨功能的更大規模融合,沒有顛覆現狀的意願,這些將不可能實現。


領導者無法依靠某種單一戰略方法來應對多維度的數字化變革。面對新一代技術+商業作業系統AI-CPS OS顛覆性的數字化+智慧化力量,領導者必須在行業、企業與個人這三個層面都保持領先地位:

  1. 重新行業佈局:你的世界觀要怎樣改變才算足夠?你必須對行業典範進行怎樣的反思?

  2. 重新構建企業:你的企業需要做出什麼樣的變化?你準備如何重新定義你的公司?

  3. 重新打造自己:你需要成為怎樣的人?要重塑自己並在數字化+智慧化時代保有領先地位,你必須如何去做?

AI-CPS OS是數字化智慧化創新平臺,設計思路是將大資料、物聯網、區塊鏈和人工智慧等無縫整合在雲端,可以幫助企業將創新成果融入自身業務體系,實現各個前沿技術在雲端的優勢協同。AI-CPS OS形成的字化+智慧化力量與行業、企業及個人三個層面的交叉,形成了領導力模式,使數字化融入到領導者所在企業與領導方式的核心位置:

  1. 精細種力量能夠使人在更加真實、細緻的層面觀察與感知現實世界和數字化世界正在發生的一切,進而理解和更加精細地進行產品個性化控制、微觀業務場景事件和結果控制。

  2. 智慧:模型隨著時間(資料)的變化而變化,整個系統就具備了智慧(自學習)的能力。

  3. 高效:企業需要建立實時或者準實時的資料採集傳輸、模型預測和響應決策能力,這樣智慧就從批量性、階段性的行為變成一個可以實時觸達的行為。

  4. 不確定性:數字化變更顛覆和改變了領導者曾經仰仗的思維方式、結構和實踐經驗,其結果就是形成了複合不確定性這種顛覆性力量。主要的不確定性蘊含於三個領域:技術、文化、制度。

  5. 邊界模糊:數字世界與現實世界的不斷融合成CPS不僅讓人們所知行業的核心產品、經濟學定理和可能性都產生了變化,還模糊了不同行業間的界限。這種效應正在向生態系統、企業、客戶、產品快速蔓延。

AI-CPS OS形成的數字化+智慧化力量通過三個方式激發經濟增長:

  1. 創造虛擬勞動力,承擔需要適應性和敏捷性的複雜任務,即“智慧自動化”,以區別於傳統的自動化解決方案;

  2. 對現有勞動力和實物資產進行有利的補充和提升,提高資本效率

  3. 人工智慧的普及,將推動多行業的相關創新,開闢嶄新的經濟增長空間


給決策制定者和商業領袖的建議:

  1. 超越自動化,開啟新創新模式:利用具有自主學習和自我控制能力的動態機器智慧,為企業創造新商機;

  2. 迎接新一代資訊科技,迎接人工智慧:無縫整合人類智慧與機器智慧,重新

    評估未來的知識和技能型別;

  3. 制定道德規範:切實為人工智慧生態系統制定道德準則,並在智慧機器的開

    發過程中確定更加明晰的標準和最佳實踐;

  4. 重視再分配效應:對人工智慧可能帶來的衝擊做好準備,制定戰略幫助面臨

    較高失業風險的人群;

  5. 開發數字化+智慧化企業所需新能力:員工團隊需要積極掌握判斷、溝通及想象力和創造力等人類所特有的重要能力。對於中國企業來說,創造兼具包容性和多樣性的文化也非常重要。


子曰:“君子和而不同,小人同而不和。”  《論語·子路》雲端計算、大資料、物聯網、區塊鏈和 人工智慧,像君子一般融合,一起體現科技就是生產力。


如果說上一次哥倫布地理大發現,擴充的是人類的物理空間。那麼這一次地理大發現,擴充的就是人們的數字空間。在數學空間,建立新的商業文明,從而發現新的創富模式,為人類社會帶來新的財富空間。雲端計算,大資料、物聯網和區塊鏈,是進入這個數字空間的船,而人工智慧就是那船上的帆,哥倫布之帆!


新一代技術+商業的人工智慧賽博物理作業系統AI-CPS OS作為新一輪產業變革的核心驅動力,將進一步釋放歷次科技革命和產業變革積蓄的巨大能量,並創造新的強大引擎。重構生產、分配、交換、消費等經濟活動各環節,形成從巨集觀到微觀各領域的智慧化新需求,催生新技術、新產品、新產業、新業態、新模式。引發經濟結構重大變革,深刻改變人類生產生活方式和思維模式,實現社會生產力的整體躍升。



產業智慧官  AI-CPS


用“人工智慧賽博物理作業系統新一代技術+商業作業系統“AI-CPS OS”:雲端計算+大資料+物聯網+區塊鏈+人工智慧)在場景中構建狀態感知-實時分析-自主決策-精準執行-學習提升的認知計算和機器智慧;實現產業轉型升級、DT驅動業務、價值創新創造的產業互聯生態鏈


640?wx_fmt=png

640?wx_fmt=png

長按上方二維碼關注微信公眾號: AI-CPS,更多資訊回覆:


新技術“雲端計算”、“大資料”、“物聯網”、“區塊鏈”、“人工智慧新產業:智慧製造”、智慧金融”、“智慧零售”、“智慧駕駛”、智慧城市新模式:“財富空間“工業網際網路”、“資料科學家”、“賽博物理系統CPS”、“供應鏈金融”


官方網站:AI-CPS.NET


本文系“產業智慧官”(公眾號ID:AI-CPS)收集整理,轉載請註明出處!



版權宣告產業智慧官(公眾號ID:AI-CPS推薦的文章,除非確實無法確認,我們都會註明作者和來源。部分文章推送時未能與原作者取得聯絡。若涉及版權問題,煩請原作者聯絡我們,與您共同協商解決。聯絡、投稿郵箱:erp_vip@hotmail.com




相關文章