聚焦轉折性技術,成立AI創新院:揭祕英特爾人工智慧藍圖

機器之心發表於2019-06-22

6 月 20 日,由 O'Reilly 與英特爾共同舉辦的人工智慧大會終於進入了主題演講環節。當日上午,英特爾架構圖形與軟體集團副總裁、資料分析技術總監馬子雅發表了主題演講,向我們介紹了英特爾在軟硬體結合加速 AI 應用方面的成果與未來展望。

「我們正處在一個資料變革的時代,人類歷史上 90% 的資料都是在過去幾年產生的,其中 50% 的資料更是在最近兩年內生成的,」馬子雅在大會上說道。「但到目前為止,只有 2% 的資料被真正分析過。這其中最主要的原因就是這些新興技術,如人工智慧從實驗室到最終落地,還有很多問題需要解決。」

聚焦轉折性技術,成立AI創新院:揭祕英特爾人工智慧藍圖

馬子雅在大會上發表演講。

讓 AI 真正解決生產問題

人工智慧的應用並不是簡單地執行演算法。以智慧生產為例,製造商可以在生產線上利用深度學習,尤其是影像識別,將產品的質量檢測自動化。如自動檢測產品表面缺陷、零部件的缺失、標籤的錯位。已有很多實踐證明,相比人工檢測,智慧檢測可以大幅提高生產效率,並降低成本。但智慧檢測只有深度學習是遠遠不夠的,它需要一條完整的資料分析流水線才能夠真正落地。

這條流水線遵循這樣的步驟:

  • 第一步,從生產線上收集大量原始資料;

  • 第二步,對原始資料進行大量清理和預處理,濾出資料噪音,查補缺失,校正錯誤;

  • 第三步,利用資料進行分析、機器學習深度學習對於清理過的資料進行歸納總結,並把有質量問題的場景從生產線上排除出去;

  • 最終把分析視覺化。

只有實現了這四步,智慧生產、智慧檢測才能落地。

人工智慧要走出實驗室、實現落地,需要一個完整的資料分析流水線,」馬子雅說道,「這個流水線的 20% 可能是在做深度學習,但是 80% 都是在做資料收集、資料儲存、資料管理資料清理、資料預處理等等,這是為什麼早前我們開源了 BigDL 的重要原因。」

BigDL 是英特爾基於 Spark 平臺的深度學習框架。它的功能與流行的深度學習框架,如 TensorFlow、Caffe、Torch 功能相同。重要是,它構建在成熟的 Spark 資料分析平臺之上,可以為客戶提供端到端的從資料收集、資料儲存、資料清理、資料預處理、資料管理機器學習深度學習,以及最終的視覺化等服務。在過去兩年的時間,已經有很多英特爾的客戶利用 BigDL 和 Spark 將人工智慧落地。

是否可以把 TensorFlow 和 Spark 進行整合實現落地?英特爾對此開源了 Analytics Zoo。這一工具能夠在完整、成熟的 Spark 資料平臺之上支援不同深度學習框架,如 TensorFlow、Keras、BigDL 等等。除此之外它還提供深度學習預訓練的模型,如影像分析模型,文字處理文字匹配模型,異常檢測模型等等。它也提供非常簡單易用的 API。因為 Analytics Zoo 是構建在 Spark 叢集之上,它可以進行分散式模型訓練和推理。

這些軟體工具也可以和英特爾最新的硬體技術相結合,獲得更高的效率。「在過去幾個月裡,我們把 Analytics Zoo 在英特爾最新的 Optane(傲騰)記憶體技術上和 OpenVINO 技術上進行優化。這一過程可以將深度學習、模型訓練以及推理效能提升更多,」馬子雅介紹道。

AI 是轉折性技術

隨著機器學習等新技術的快速發展,越來越多的科技公司正在湧現,對於英特爾這樣「久經沙場」的玩家而言,如何保持自己的領導地位是首要問題,這家公司尋求的解決方案是大膽創新。

2019 年 1 月,英特爾迎來了新任執行長 Bob Swan(司睿博),他在上任首日致英特爾員工、客戶與合作伙伴的公開信中就提到:「我們的抱負從未如此之大,在這個越來越以資料驅動的世界裡,所有的資料都需要被處理、傳輸、儲存和分析。對此,我們必須持續進擊,銳意創新。」

Bob 認為,人工智慧5 G 和自動駕駛對於資料的需求正日益增長,英特爾需要專注於引領這些轉折性技術的發展:「我們相信,面向未來更加廣闊的市場機遇,英特爾能夠在助力客戶成功方面扮演一個更加重要的角色。我們將著重於改進執行力,加速創新,發展我們強大的文化,並通過嚴謹的投資實現盈利增長。」

聚焦轉折性技術,成立AI創新院:揭祕英特爾人工智慧藍圖

英特爾 CEOBob Swan (司睿博)

英特爾預計,資料中心 AI 晶片的總體潛在市場規模正以 25% 的複合年增長率擴張。預計到 2023 年,整個市場的規模將達到 100 億美元。2018 年,英特爾獲得了全部約 40 億美後設資料中心 AI 晶片機會中的大約 40%,實現了 17 億美元的 AI 收入。

英特爾遵循客戶至上 (customer obsession),致力於把最好的技術提供給使用者」馬子雅表示。「英特爾在開源方面有很多貢獻,我們希望以此能讓自己的技術在 CSP、ISP、OEM 中間被廣泛應用。而在硬體層面上,我們致力於提供完整的解決方案。」

在 AI 大會的演講中,馬子雅以美的為例介紹了人工智慧完整工作流優化的重要性:工廠在生產線上需要對產品質量進行檢測。人工檢測通常不能達到美的所需的質量檢測和檢測率。在英特爾與美的的合作中,開發者們在常規伺服器叢集上利用 Analytics Zoo 構建了完整的資料分析和 AI 解決方案,其將 TensorFlow 和 BigDL 整合在了 Spark 叢集之上,不僅可以進行分散式的模型訓練和推理,也可以提供完整的資料分析

這一系統可以將影像預處理的速度提升 4 倍,延遲由 200 毫秒降低到了 50 毫秒;也將推理速度提升了 16 倍:從原來的 2 秒降低到了 124 毫秒。相比人工檢測,美的的質量解決方案,更精準、更快捷、更自動,並且避免了人工檢測對生產行程可能帶來的破壞。

英特爾在 AI 生態中已經佔據了一席之地。目前,國內前七大雲服務供應商都已與這家公司展開了合作。而在終端客戶方面,英特爾去年有 30 個客戶,目前為止已經有50個,且還在增長中。

「如果不能用於生產實踐,人工智慧就是沒有任何價值的,」馬子雅表示。「我們需要打破理論和實踐的壁壘。現在的 AI 在預測分析和雲端已有很多應用了。但 AI 在高效能運算(HPC)上還有很多發展空間。」

打破理論與現實的壁壘

英特爾正在試圖實現完整的 AI 應用堆疊,近年來它已開放了深度學習框架 BigDL、Analytics Zoo 等工具。去年底,這家公司更是提出了 One API 概念,該專案旨在提供一個統一的程式設計模型,以簡化跨不同計算架構的應用程式開發工作。

「我們的垂直化堆疊從硬體到作業系統,再到上層應用,整合了生產流程中所需的所有技術,可以打通硬體架構的優化,」英特爾高階首席工程師、大資料技術全球 CTO 戴金權表示,「在 Spark 上進行機器學習訓練,我們的方法可以提供高達 8 倍的效能提升。如果優化僅限於各個部分,我們無法實現這樣大的優勢。通過全棧軟體技術(Vertical stack)我們可以讓使用者得到更好的效能和算力。」

對於開發者來說,資料清洗與特徵生成是一個非常繁瑣的過程。英特爾希望通過自身努力不斷降低 AI 開發的門檻。據悉,在 Analytics Zoo 中很快也將加入 AutoML 等功能。

聚焦轉折性技術,成立AI創新院:揭祕英特爾人工智慧藍圖

英特爾目前的軟體產品堆疊。

雖然在人們的印象中,英特爾是一家晶片公司,但實際上它已在軟體領域耕耘多年——這家公司現在擁有 15,000 餘名軟體工程師。

「我們不止是在做 AI 軟體,AI 的應用還需要很多工作,」馬子雅介紹道。「我們會對每一層軟體的優化,儘可能擠出硬體的全部效能。最終所有的軟體加起來,可以提升 8 倍,而不是 1-2 倍。常規的高效能運算(HPC)架構已經被人們使用很多年了,AI 則是新發展出來的架構。如何把舊架構和新架構統一結合起來是我們面臨的挑戰。目前看來,資料分析和 HPC 的整合趨勢已經越來越明顯了。」

在大會上,英特爾還宣佈成立了「大資料分析人工智慧創新院」,由戴金權任院長。此舉旨在吸引公司與學界、業界的更多合作。

「以前的創新機構通常會進行點對點的合作,我們成立的新機構希望能夠與全球生態中的成員有更廣泛的合作。其中包括終端客戶、合作伙伴、開源社群、學術界。這是與此前其他合作方式的不同。」馬子雅表示。

據介紹,這所創新院的工作將主要集中在三個方面:

  • 加速人工智慧在中國市場的落地,通過 AI 與資料分析的整合來加速落地;

  • 解決中國市場的最新需求,引領創新用法、創新演算法;

  • 幫助中國市場更好地使用英特爾最新的軟體和硬體技術。

英特爾希望通過此舉進使得更多的企業和個人得益於最新技術進步,使人工智慧真正的做到普惠。

人工智慧業務的需求牢牢地根植於資料,利用大資料獲取更多的洞察需要完整而全面的戰略,只有充分利用以資料為中心的基礎架構,充分利用將資料分析人工智慧無縫銜接起來的軟體技術,才能獲得成功。」馬子雅表示。

相關文章