產品化機器學習的一些思考

騰訊技術工程發表於2019-01-02

“如果說網際網路是優化資訊的儲存和傳輸方式,提升生產要素之間的運阿行效率;人工智慧便是對各個生產要素的升級。”

本人初入職場便從事TOB相關工作,參與了tbds等大資料平臺的產品建設,近兩年逐漸接觸人工智慧;目前主要負責TI-ONE機器學習平臺,結合自己工作經驗,在這裡分享一些關於ML產品的思考和實踐。

人工智慧產品型別

平臺-強調賦能

基礎支撐/基礎平臺-通用的ML技術平臺,實現常用的演算法,形成通用機器學習平臺(Spark/TensorFlow等),對外提供API、SDK等,為業務賦能。這類平臺聚焦效能、開發效率和預測準確度。

應用-融入場景

突出場景閉環,如利用人臉識別自然語言處理(NLP)等技術構建新的互動體驗和使用者場景。

目前市面上看到的人工智慧產品都屬於弱人工智慧的範疇,它們通常專注於某一特定領域,有一定規則邊界,是達成既定目標的工具;各個領域的初級崗位最有可能被這類人工智慧替代。

人工智慧產品流程

資料

人工智慧產品能夠運轉起來的前提,首先需要尋找和積累大資料大資料機器學習平臺必需的燃料,有足夠大的燃料,平臺所跑出的模型精確率會越高。

通常我們會通過中介軟體工具(KAFKA/tube)進行流轉,將資料運輸到HDFS等儲存平臺,包括文字、圖片、語音等資料,並對其做資料清洗,特徵處理等,便於載入到接下來的神經網路

演算法、訓練模型

訓練出一個有效的模型的前提,需要資料和演算法兩者的雙管齊下;從計算模型的角度,我們通過所獲取並清洗好的一組資料,配置好演算法相關的關鍵引數來構建模型的執行,從而形成了一定的反饋路徑,來達到預期的輸出結果。

產品化機器學習的一些思考

通過資料的灌輸,建立起輸入-處理-輸出(IPO)的關係,載入到神經網路的訓練中,學習資料中的規律併產生一個最能契合這些資料的函式表示式。在訓練過程中,不斷去試錯和糾正,去推進模型更為精準的路上。對模型準確度有足夠信心,便可把訓練完成後的模型部署上去,去預測餵養新資料後的結果是什麼。例輸入的是人臉圖片,那麼輸出結果便是人臉識別結果。           

應用模型

當模型精確度足夠高後,便可上線服務,實際運用到我們的系統中。典型的例子是電商系統中基於使用者/物品的推薦。 

人工智慧產品經理的思考點

1.明確產品的定位,找到產品能發揮價值的地方

在做TI-ONE初期,我們的目標是做一個通用/易用性高的機器學習平臺,讓方便業務接入平臺。使用者無需關注機器學習的執行細節,如底層用什麼計算框架、用多少計算資源、應該怎樣配置引數等,將注意力重點放在核心業務,同時也可以享受機器學習帶來的便利。

我們把TI-ONE設定為一個拖拽式建模工具而不是類似於jupyter的互動式工具,雖然jupyter有很好的擴充性,但為了降低機器學習使用門檻和釋放使用者大量寫程式碼的時間和精力,增加受眾面,我們選擇了把特徵處理、演算法以模組化的方式來設計,讓使用者在拖拽元件中,快速完成模型的搭建。

產品化機器學習的一些思考

在產品化機器學習的時候,發現大部分工作不是在研究複雜的公式理論,而是如何讓使用者在使用機器學習的過程中更順暢,讓不同步驟之間的流程如資料的準備、演算法引數的填寫、模型的訓練/測試/篩選/部署等,能夠無縫銜接。舉個例子,規劃及組織平臺所需要的資料、用什麼方式和工具來統一資料的上傳、對資料的接入是否需要提供預覽;如何幫助使用者獲得高質量的資料集,為提煉優質模型提供保障、如何高效率低成本地為資料打標籤、把資料價值最大化,這些都是產品經理需要重點耗費精力的地方。

在此引用谷歌大腦高階科學家Martin Zinkevich的一句話“To make great products:do machine learninglike the great engineer you are, not like the great machine learning expert youaren’t”把工程效率提升到極致了,使用者才能真正享受到演算法帶來的便利。

2.產品形態的把握

對於人工智慧產品經理,所需的技能SET,不僅包括原型能力、功能邏輯、資訊路徑、UI設計,演算法模型、資料訓練等產品背後抽象的邏輯也同樣重要。

比如立項一個人工智慧產品,我們不能很寬泛地定位要做一個機器寫作,這個需求的範圍太大,會讓後續功能的開發不好收斂。產品經理需要儘量參與到演算法開發,瞭解演算法的每個步驟,對涉及的環節有個清晰的概念,並在此基礎上尋找和評估是否有產品化的可能性。

再比如我們要做新聞主題分類,首先需要利用網頁抓取去各個網站的新聞,一般情況下,新聞網站都會分好類,可以直接記為標籤。這個過程是否便可以做成一個產品化的成果。

過去的網際網路產品,可能我們偏向埋頭於體驗、需求,不太關注技術環節;而在AI產品領域,我們必須要深入技術運轉流程,才能提升我們做出一個優秀AI產品的可能性。

 3.瞭解使用者指標背後的含義

在評估TI-ONE產品使用者資料指標時,UV/PV/月活/新增使用者數等都是我們會去關注的資料指標。但若只關注實際數值,不去深究背後資料增長原因的話,有時會陷入一定的盲區。比如之前檢視產品的統計指標,使用者數和日均執行任務數都是一個穩定增長的趨勢,但在使用者調研中,深入瞭解了這些在平臺上跑的任務,發現有一部分任務大家只用來做排程,並沒有去使用平臺上的演算法模組,刨根問底了這部分使用者才知道,因為我們平臺上的演算法庫是黑盒子,出了問題不好定位,不如自己寫程式碼查原因。通過這次對指標的剖析,我們也考慮將目前提供的演算法進行開源和引入自定義演算法模組,去補充我們對這塊功能設計的短板。 

4.縱向的業務理解能力

很多人工智慧產品往往跟某一垂直行業緊緊掛鉤,去解決某一具體問題;這是要求人工智慧產品經理去深入整個業務流程的鏈條,熟悉每一個涉及到的使用者場景;並且在場景中,提煉出使用者最迫切需求並優化需求點,實現產品的變現。

很多不同行業、領域的人工智慧產品其實背後所用到的技術邏輯都大同小異,如人臉識別技術,在安防市場,因人臉難以複製的特性,它代替了門禁卡。在公安領域,警察可以通過人臉識別,在各大重點區域,關口進行人臉的抓拍、識別,對可疑人物的資訊可實時推送到警務終端,大大提升破案效率。在銀行領域,人臉識別可以支援遠端辦理業務,刷臉開戶,通過它查驗身份資訊,可免去需求親自去網點辦理的麻煩。

技術是相通,但不同場景的側重點會有所不同,產品形態也會有所差異;在銀行領域,人證比對裝置需求會比較強。在公安領域更強調的是後臺動態人臉識別系統的使用。

人工智慧產品經理需要對業務場景進行反覆驗證、迭代,從而去判斷結果概率是否能達到使用者的標準,依照這些判斷去做不同的投入策略。因此,瞭解演算法的基本原理和落地的業務場景尤為重要,可以有一個相對清晰的技術框架,並且懂得在技術允許實現的範圍內,規劃出最優方案。

5.關聯資訊的能力

人工智慧產品需要我們加深對機器學習相關技術和應用的理解。理解好機器學習的基本邏輯,數學是其背後的原理,如微積分、概率論、線性代數都是機器學習的基礎。而這些數學概念和模型往往是抽象、非直觀的。

當試著去理順這些相對複雜的邏輯,可以嘗試關聯資訊的方法,在不熟悉與熟悉的知識之前建立連線,從個人的經驗中,去尋找能夠與所有要理解資訊類比的部分,把枯燥難懂的知識點,與實際生活的例子相結合。

比如說我要學習線性迴歸,關於線性迴歸,提供的數學解釋是假設自變數與因變數是線性關係,利用最小二乘法擬合自變數權重的一種分析方法。若單是看這段解釋的話,會不太容易讓人理解線性迴歸是在描述什麼;試著去聯想生活中的經驗會幫助理解線性迴歸的概念。針對線性迴歸這個概念,可以通過房價波動和驅動因素來做聯想,假設我們有1000條關於深圳房子的綜合資料,每條資料作為一個樣本,內含信貸價格、常住人口/戶籍人口、工作人口/常住人口、小學生在校人數這些資料看作特徵變數,房價為目標變數。線性迴歸解釋的便是這些特徵變數對房價波動的影響度。 

6.降本提效是推動人工智慧發展的最強動力

人工智慧技術價值的實現,最終需要落地商業化、為行業帶來價值和形成真實有效規模化的剛需來體現。目前大部分人工智慧公司在做的是單一的人工智慧驅動產品,如自動駕駛汽車演算法、零售領域的刷臉支付、醫療領域的人工智慧影像分析。所有員工工作中的任務自動化比例將提升,一部分勞動力也會被人工智慧所替代。衝擊較大的工種為人工客服、流水線工人、銀行櫃檯職員等。

還有一種AI公司,不是去用某種人工智慧的能力去替代某一工種的工作,而是完全重塑整個行業的的勞動力配置,比如阿里的無人酒店,從接待到打掃的服務員全都是機器人,他們沒有僱傭人類員工,去利用演算法取代某種型別的工種;隨著低本、高效和優質的服務模式逐漸鋪開並且佔領市場,高昂的人力成本可能會導致對手們重新調整公司對勞動力配置。

根據來自普華永道的資料:“預計到2030年,AI將能為世界經濟貢獻15.7萬億美元,這相當於目前印度加中國的生產總值總和,中國公司在其中將起到非常重要和關鍵的作用。”相信不久的將來,會有越來越多的行業和人工智慧結合在一起。如何去挖掘行業的切入點、利用AI去重塑應用場景,為實體行業提升執行效率、甚至顛覆當前的傳統的商業模式,提供一套可行的AI解決方案是AI產品經理需要掌握的核心技能。

結語

當有了一定積累,面對工作就會得心應手,使人的行為處於一個穩定的水平,慢慢有了自己的舒適區,時間久了會不願離開這樣的狀態。但若一直沉浸在一個自己非常熟悉的領域,難免被固化了行為,不過是日復一日發揮著一個螺絲釘的功效。

切換到AI領域發現,這是個一旦不保持自己技能SET更新狀態便會被淘汰的領域,包括在一個專案組內的演算法、開發童鞋,也是每天不斷在學習,瞭解當前最前沿的知識。

世界總是不斷前進變化和充滿著不確定性,保持著自己所積累的技能和可預見/突破的挑戰的平衡,逐步爬坡,穿透自己的高牆,才能擁有人生更多的可能性。

相關文章