業界 | 跨職能合作,優秀的資料產品如何三步煉成

大資料文摘發表於2018-12-21

業界 | 跨職能合作,優秀的資料產品如何三步煉成

大資料文摘出品

編譯:韋夢夙、張秋玥、蔣寶尚

結合了資料與機器學習的產品可成為解決使用者需求的利器。它們能夠創造一條可以幫你避免激烈競爭的“資料護城河”。

當前已經有了一些非常經典的案例,例如谷歌搜尋引擎以及亞馬遜產品推薦系統,兩者利用資料與機器學習做出的改進都吸引了更多使用者使用它們的產品。

但是機會並不會只青睞技術巨頭:各個領域各種規模的公司都在投資它們自己的資料產品。在Coursera,我們使用機器學習幫助學習者尋找最佳的內容去達成他們的學習目標,保證他們獲得成功所需要的支援——無論是機器支援,亦或人工支援。

所謂“資料產品”的生命週期反映了當前基本的產品開發現狀:找到解決使用者核心需求的機會,建立一個初始版本,然後評估其影響並進行迭代。

但是資料的引入增加了一層額外的複雜度。為了應對此挑戰,公司應該加強跨職能合作,用長期眼光去評估並優先考慮資料產品機會,然後從簡單之處開始做起。

階段1:辨識機會

業界 | 跨職能合作,優秀的資料產品如何三步煉成

資料產品是一項團體運動

找到最佳的資料產品機會需要把產品業務的洞察和技術資料的洞察結合起來。產品經理、使用者研究員以及商務領袖們通常有很強的直覺和領域專長去辨識關鍵且尚未解決的使用者與業務需求。與此同時,資料科學家和工程師們擁有敏銳的眼光去辨識可行的資料驅動解決方法;他們還在什麼能夠擴充和如何擴充等問題上有很強的直覺。

為了辨識並優先考慮正確的資料產品機會,我們需要讓討論桌上的各方聚到一起。如下的幾條規範就能夠很有幫助:

讓資料科學家認識使用者和業務需求。保持資料科學家與產品經理、使用者研究員、商業領袖的緊密聯絡,以保證他們能夠直接深入挖掘資料來理解使用者以及他們的需求。

讓資料科學家承擔資料傳播者的角色,與整個公司交流資料能夠帶來的機會。這包括從為公司提供更易於使用的原始資料、在早期構想階段即提供模型輸出樣本,到在後期搭建全功能產品樣本。

培養具有良好資料意識的產品與業務小組。不同職能與行業的人們都在提高自己的資料相關能力,而僱主們則能夠通過投資培訓專案來加速這個趨勢。產品與業務部門的資料相關能力越強,他們就能夠更好地和資料科學以及技術小組合作。

討論桌上為資料科學保留一席之地。資料科學能在組織不同的地方存在(無論是集中或去中心化的管理模式),但是無論是什麼樣的組織形式,參與產品與商業策略討論的資料科學領袖們都能夠幫助加速資料產品的開發。

優先考慮未來

最好的資料產品像美酒一樣,隨著時間流逝會變得越來越好。有如下兩個原因:

  • 首先,資料產品應用通常能夠加速資料的收集,反之又有助於提高應用本身。設想一個基於使用者自反饋資料資料的推薦系統產品吧:目前使用有限的個人資料資料,初始推薦系統可能效果並不明顯。但如果使用者在個性化自己的偏好時擁有有非常強的意願去補充資料,這將推動推薦系統去加速收集資料資料,逐漸提高推薦系統的效果。

  • 其次,許多資料產品能夠支援多種應用。這不僅是為了在各件應用上均攤昂貴的研發成本,還是通過共享資料加強網路效應。各種應用產生的資料反饋給底層資料架構,有助於提升應用的利用率和資料收集——這樣的良性迴圈將持續進行。Coursera的技能圖就是其中一個例子。一系列演算法給課程內容、職業生涯以及學習者本身匹配了一個強大的技能庫。該技能圖加強了一系列幫助發現相關課程的應用表現,而其中許多應用產生了增強技能圖的訓練資料,反過來提高應用的效果。

過度關注近期表現會錯失中長期的機會。普遍來說,高質量資料的關鍵性不容小覷。每一個步驟都應該在收集和儲存資料上優先投資。

階段2:建設產品

業界 | 跨職能合作,優秀的資料產品如何三步煉成

通過分佈執行來降低風險

資料產品通常需要驗證演算法是否有效和使用者是否喜歡。因此,資料產品的建設者面臨著一個固有的矛盾——在前期研發上投資多少,以及儘快釋出應用以驗證它是否能夠解決某一核心需求的速度。

在驗證產品與市場是否匹配之前過度投資於技術驗證,會加大研發力量浪費在錯誤的問題或者解決方案上的風險。反過來,缺乏有效研發、僅僅過度投資於使用者需求驗證會導致呈現給使用者一個無力的樣品,會有被錯誤否定的風險。偏向於後者的團隊也許會產生一個由並不有力的模型驅動的MVP(Minimum Viable Product,最小可行產品)。如果使用者反饋差強人意,那當我們投入更高研發力度去改善產品時結果其實有可能將有所不同。

當沒有合適手段同時驗證技術並測評產品與市場是否匹配時,分佈執行就能夠幫得上忙了。從簡單部分入手將能夠加速測試以及收集高價值資料。在建立技能圖的過程中,我們起初推出基於技能的搜尋——一項只需要技能圖一個小子集的應用。它隨後產生了豐富的訓練資料。如下一系列MVP方法同樣能夠減少測試時間:

  • 輕量級模型通常搭建並投入市場更快,而且更容易解釋、除錯並逐漸升級。雖然深度學習在大部分案例中非常有用(確實是一個趨勢),但它並不適合被用於資料產品啟動階段。

  • 外部資料資源——無論是公開資源、購買資源或合作伙伴的解決方案——都能夠加速資料產品的開發。如果產品產生的資料中可以明顯看出(某個特性)很受歡迎或很有效果,該產品就可以向該有競爭力的方向進行改進,或直接將其作為賣點。

  • 在起步的時候縮小適用領域能使演算法不那麼具有挑戰性。例如,一些應用在初始搭建階段時可以先著眼於一小部分使用者群體或適用範圍。

  • 手工處理——要麼人工完成你希望最終機器模型能做的事情,要麼至少是人工評估調整初始模型的輸出——都能更進一步加速開發。著眼於讓手工綜合處理的步驟能隨時間推移實現自動化以提高產品的效果,將會十分理想。

階段3   評估和迭代

業界 | 跨職能合作,優秀的資料產品如何三步煉成

當評估資料產品表現時,思考其未來的潛力

在釋出產品後評估結果就對資料產品做出有用或者無用的定論不像簡單的UI調整那麼直接。這是因為,當你收集到更多資料的時候,資料產品的效果基本都會提高,而且基礎資料產品會隨著時間推移實現更多功能。在封裝一個沒有明顯優於競爭對手的資料產品前,請你的資料科學家準備好一些重要問題的回答。例如,產品和原先比資料收集效率提升了多少?提高演算法效果上有多少成果?未來將會解鎖什麼樣的應用?基於這些問題的回答,一件當前指標並不耀眼的產品也許其實值得儲存下來。

迭代速度很重要

資料產品經常需要在演算法和UI上進行迭代。挑戰在於決定在哪裡進行迭代的價值最高。資料和使用者反饋將幫助團隊知道什麼功能需要改進。演算法迭代成為核心時(通常在複雜的推薦系統或者通訊系統中演算法迭代會無比重要,比如Coursera的個人學習干預專案算一個),我們將需要考慮到系統設計是否方便資料科學家在開發中獨立地部署並測試新模型。

在產品與商業領袖和資料科學家之間培養合作的默契,優先考慮用未來的眼光投資,然後從簡單之處開始起步,任何型別和規模的公司都能加速開發出能有效解決使用者核心需求的資料產品,以給為企業新增能量,創造持續性的競爭力。

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/31562039/viewspace-2286065/,如需轉載,請註明出處,否則將追究法律責任。

相關文章