搞AI的產品經理該怎麼寫PRD?谷歌的導師教你

dicksonjyl560101發表於2018-10-25

搞AI的產品經理該怎麼寫PRD?谷歌的導師教你

   

https://mp.weixin.qq.com/s/ZeOMPO-K8j27gcMoVDaG8g


作為AI產品的產品經理,該怎麼寫好一個產品需求文件( PRD )?

 

對於大多數人來說可能還沒有清晰的概念。到底該咋辦呢?

 

莫慌!既然你已經點進來了,不會讓你空手而歸。

 

最近,谷歌機器學習X 和TensorFlow X團隊的產品領導者Clemens Mewald在Medium上發表了一篇文章,詳細介紹在開發涉及到機器學習的產品時,產品經理寫PRD怎麼處理資料相關的問題。

 

乾貨滿滿,請收下慢慢消化~

 

在開始之前,先看看Clemens Mewald給出的一個宣告:

 

機器學習不是必需的。我看到,有的產品經理在PRD中將“使用強化學習來優化對使用者的獎勵”作為一項需求。這通常是一個危險訊號。在大多數情況下,機器學習是滿足使用者需求的一種方式,而不是需求本身。

 

為什麼產品經理需要考慮資料問題

 

你可能會問,為什麼我寫個PRD,還需要寫一堆關於資料的要求?

 

答案很簡單,如何收集和使用資料將會對產品產生重大影響,更何況這還是一個與人工智慧有關的產品。

 

首先,你必須搞清楚你要預測什麼,也就是你機器學習模型的輸出,以及是否有與輸出相關的必要反饋機制。

 

假設你的目標是向使用者提供與他/她最相關的通知。你如何知道通知是相關的呢?

 

你可以提供一種機制,允許使用者“滑掉”通知。

 

但是,這種反饋是否能告訴你,他們是因為通知很煩而關掉它,還是說這個通知是有用的,他們只是“完成”了它呢?

 

在確定如何定義這種反饋之前,你可能需要做一些使用者體驗研究。

 

其次,你必須要想清楚,把哪些關於通知的資料輸入到機器學習模型中,來幫助訓練模型。

 

哪些特徵可能有用?可以考慮下通知的性質,是提供資訊,還是敦促使用者採取行動?或者是通知送達的時間。

 

這不過是拋磚引玉罷了,我相信有了一些相關的知識之後,你可以想出更多。

 

此外,要想成為一名有遠見的AI產品經理,不僅需要仔細琢磨一下機器學習模型需要輸入和輸出什麼資料,還要確定這些資料是能夠使用的。

 

資料使機器學習成為可能

 

找出產品或特定功能所需要的資料是確定資料需求的第一步,也是最重要的一步。

 

說起來也很簡單,機器學習模型只不過是一個數學函式,輸入一些帶有特徵的資料,輸出預測結果。然後再進行學習,把預測結果與從訓練資料中觀察到的模式匹配起來。

 

這樣說可能有點難以理解,是時候再舉個例子了。下面這張圖,是灣區正在出售的5套住房的實際情況。

 

 

為了避免混淆,我們把房屋的已知屬性稱為特徵,將要預測的值稱為標籤。

 

值得注意的是,你可以選擇各種值來當做標籤,比如說房子的大小、臥室、浴室和房價等等,甚至是郵編。

 

藉助這個例子,給大家第一個重要提醒:你需要找到有標籤的資料,用於監督式的機器學習。

 

假設有一套房子,我們知道它的特徵和標籤,這意味著你已經給資料貼了標籤。

 

另外有一棟我們不知道價格的房子。給定已知的特徵,我們可以使用我們訓練的機器學習模型來預測這個值。

 

在開頭那個關於通知的例子中,標籤是使用者在拒絕通知時提供的反饋。如果他們表示通知是有用的,那就是肯定的標籤。

 

在許多產品用例中,都有一個有標籤資料的來源:日誌。

 

在我之前的部落格文章中,我介紹了一個來自Google Forms的例子,它主要是基於問題的提示,自動為問題選擇型別。

 

 

之前,使用者會提供問題提示,然後手動選擇合適的問題型別。問題提示就是特徵,手動選擇的問題型別就是標籤。

 

 

資料採集需要一種策略

 

你需要什麼樣的資料或者特徵?

 

在某些情況下,產品經理或開發人員的想象力都會被資料限制住。

 

通常情況下,你可以使用其他資料來源的特徵來豐富這些資料。不管可行性或成本如何,可以先進行頭腦風暴,列出可能對自己的機器學習任務有幫助的潛在特徵。

 

假設你試圖預測房價,但你只有大小、臥室、浴室和郵政編碼等特徵。你能想出其他的特徵嗎?條件是,對這個任務有幫助,而且你也能拿得到。

 

舉兩個例子:

房子的年齡?這可以從公共記錄中獲得。
離最近的雜貨店的距離?可以使用公共地圖資料計算。

 

一旦你能夠找到其他的特徵,你可以按可用性、有無困難和成本來排定優先順序。與此對應的問題是:這些資料存在嗎?有授權嗎?收集這些資料的成本有多高?

 

你需要多少資料?

 

需要多少資料”,這個問題的答案可以寫成一本教科書。但與開發團隊進行對接的時候,產品經理需要把握一些重點:

 

1 、在大多數情況下,資料越多越好。

 

2 、如果資料很少或沒有資料可用,遷移學習可能會有所幫助,從一項任務中獲取資料或者模型,並將它們應用到其他的任務中,比如將一個給狗分類的模型用到給汽車分類上。

 

3 、在獲取標記資料需要花費金錢和時間的情況下,需要在模型的質量和效能方面定一個目標,並對花費的錢和時間有清晰的預算。

 

4 、在某些情況下,更多的資料不會有幫助。

 

這部分表述可能不太清晰。為了讓大家更好地理解,可以看看下面這張圖。直觀地展示了獲取更多資料可能有用也可能沒用的情況。

 

 

大多數機器學習問題都在曲線的上方,即獲取更多資料將會帶來更好的效能。

 

然而,在一些情況下,大量標註的訓練資料已經存在,回報可能會減少。也就是說,更多的資料並不能提高模型質量。

 

你的資料質量是否足夠好?

 

資料在特徵和標籤的質量上,也可能會有很大差異。

 

如果你正在通過整理日誌獲取資料,很可能你會獲得一些異常的訓練資料。

 

這可能本身沒有問題,比如說在Google Forms的例子中,使用者對一些問題歸到一個型別中有不同的看法。

 

在其他的一些情況下,可能是因為不同格式的特徵值或語義。比如說一些房價以千美元計,另一些以百萬美元計。

 

就算你可以訪問這些資料,並且可以通過抽查來發現有問題的案例。但在寫PRD的時候,你對此也無能為力。

 

但不管怎樣,要告訴開發團隊應該關注什麼,這樣他們就可以集中精力調查資料質量。

 

此外,如果你對資料的質量有所擔心,你應該在PRD中提出警告,表示這可能會降低機器學習模型的質量。

 

關於隱私和安全

 

如何儲存和處理這些資料也非常重要。在開始收集資料之前,最好諮詢隱私和安全方面的專家,弄清楚你能做什麼和不能做什麼。

 

就算有了這些限制,也要從使用者的角度來考慮,什麼是應該做的,什麼是不應該做的。

 

此外,還要花時間考慮一下,你的使用者從中獲得了什麼好處,確定這需要用到的資料。當然,也要讓使用者認可這些好處,不能只是你自己的想法。

 

資料需求清單

 

下面是一些具體問題清單。不管你是在構思一個新產品,還是向既有的產品中新增新的功能,都可以作為參考:

 

資料要求

需要什麼資料?

哪些特徵是已知的,將是有用的?等等。

這些特徵可用嗎?如果不可用,獲取成本是多少?

 

資料採集策略

上述資料來自哪裡?

現有資料是否存在質量問題?

你認為需要多少資料?

 

隱私與安全

資料儲存和處理的方式是否安全?

你有收集/使用資料的許可權嗎?

從使用者的角度來看,新功能或產品的好處是否能超過他們在提供資料時的擔憂?



原文連結:

https://medium.com/the-lever/data-a-key-requirement-for-your-machine-learning-ml-product-9195ace977d4

 

 

來自 “ ITPUB部落格 ” ,連結:http://blog.itpub.net/29829936/viewspace-2217474/,如需轉載,請註明出處,否則將追究法律責任。

相關文章