1463148565-8441-5734674883ce2

圖片來源,GoodLifeStudio/cloudcomputing news.net

Airbnb的資料科學團隊領導人Riley Newman在nerds.airbnb.com的日誌上寫道:“資料是一種行為或事件的記錄。通常情況下它可以代表出人們所做出的決定。如果你可以重現一個人做出決定的過程,你就可以從中學到很多東西;這是從人們那裡知道他們喜歡或不喜歡什麼的不直接的辦法——這個特性比那個更吸引我,我發現這個功能很好用但是那些……沒有那麼好用。這樣的反饋可以成為做出有關社群成長、產品開發或者資源優化的決定時非常有價值的資訊來源。我們可以把來自客戶的資訊翻譯成一種更適合指引我們做出決定的語言。”

正是這種從使用者反饋中獲得資訊的洞察力讓Airbnb得以將他們的精力集中在發展高峰期時熱門旅遊景點的房主數量上。並且為價格制定出明確的結構標準以使得他們能最大化程度利用他們全球化屬性而收集來的海量資料。比如說,資料可以幫助Airbnb通過像位置、出租時所在的時間段、鋪位的型別、交通的發達程度等數種變數來決定一個房間或一間公寓的合適價格,Airbnb現在可以利用演算法來幫助他們的客戶做到這些。如果你考慮到這些房間都是真正的“家”,而不是旅館那種標準化的、可以輕易的用星級來評判好壞的房間,你就會發現要給出一個清晰的調價方式真的是件很有挑戰性的事。畢竟那些在城市公寓中比較會讓人滿意的條件(比如WiFi、便捷的交通)對於一間古典、精緻的小農舍可能就沒有那麼重要了(那裡的住客可能會更渴望平靜、浪漫的生活而不是WiFi覆蓋或者地鐵直達)。

為了幫助房主們定價,Airbnb開發了一套叫“Aerosolve”的機器學習平臺。這個平臺會自動將城市劃分成無數個由微型街區組成的小區域,並分析房主們拍攝的房間照片(展示一個溫馨舒適的臥室會比展示一間時髦的客廳更加容易獲得青睞!)。Aerosolve還模仿酒店和航空公司的定價模式搭建了一套動態定價策略。

Airbnb還開源了一個叫“Airpal”的平臺:這是一個使用者友好型的資料分析平臺,能允許公司的任何員工——而不是隻有那些受過專業訓練的員工獲得和分析公司的資料資訊,並且使用Airpal提供的工具對其進行質詢。

大資料應用的結果怎麼樣?

就像Newman說的那樣:“頗為諷刺的是,衡量一個資料科學團隊給公司帶來的影響反而是很難的,但是有一個明顯的訊號是:現在不管是技術人員還是非技術人員,都一致的希望能參考更多資料來作出決定。”這種現象在Airpal裡得到了表現和證明。2014年上線執行的Airpal系統至今已經被超過三分之一的員工用來進行查詢和質疑。這個讓人印象深刻的數字表明瞭資料已經成為了Airbnb內部決定流程中非常重要的一環。

而Airbnb的不斷成長也是另一個他們對資料的明智使用產生了回報的側面體現。

有哪些資料被用上了?

被分析的資料主要是由格式化的和無固定格式的訊息混合起來的內部資訊:屋主拍攝的房間照片、地理位置、居住條件(房間、床位的數量,WiFi,熱水浴缸等等),使用者反饋和評分,事物處理資料之類。也有一些外部資料會被考慮進去。比如英國的愛丁堡有一個非常出名的節日“愛丁堡文化節(The Edinburgh Festival)”,在節日期間,同一條件的房間的定價會比一年中的其餘時段都要高一些。

可以說一些技術細節嗎?

Airbnb目前手握將近1500TB的資料,像蜂巢一樣由HDFS(Hadoop Distributed File System,一種用來管理大資料的檔案系統)叢集組織起來,託管在亞馬遜的EC2(Elastic Compute Cloud)雲服務中。Airbnb曾經用亞馬遜的RedShift服務作為資料查詢工具,但後來換成了Facebook的Presto。因為Presto是開源的,所以他們能及早的修復發現的漏洞並且打上相應的補丁。

在未來,Airbnb希望將資料處理的方式由現在的批量處理升級為實時處理,這將能讓他們更好的發現和處理支付過程中出現的異常現象,並且提升房源匹配和個性化資訊的準確度。

有什麼需要克服的困難嗎?

其實Airbnb的資料科學團隊面臨的一項巨大的挑戰反而是跟上公司夢幻般的發展速度。在2011年早些時候,這個團隊僅由三名資料學家組成,因為那時候公司還很小,所以儘管只有三人,他們也能有足夠的精力來處理每個員工遇到的資料問題。但在那一年的末尾,Airbnb就已經有了10個國際分公司,公司的人數有了巨大的增長,這也意味著資料團隊不可能再一對一的為公司的員工解決問題了。

就像Newman對此所說的那樣:“我們需要找到一個讓我們的工作變得更大眾、通俗的做法,不僅是侷限於一對一的指導和幫助,我們需要允許工作組、全公司甚至我們的整個社群都瞭解使用這些資料的辦法。”隨著更快速和可靠的技術的購入,這個想法成為了可能。他們還把搜尋查詢基礎資料的工作也從科學家們手中交給了整個公司的團隊們,在專案控制皮膚和Airpal提供的工具的幫助下,這些資料讓Airbnb的團隊如虎添翼。並且由於資料科學家們從這些繁瑣的一對一工作中解脫了出來,他們可以將精力集中在一些更酷、更有用的專案上。教會公司的團隊如何使用這些工具是幫助他們獲得對資料的洞察力的關鍵。

我們能從中學到什麼?

Airbnb是一家對大資料的需求和應用隨著公司的擴張而成長的完美的例子。我想,他們隨著公司的成長而調整、轉換自己以適應新節奏的能力是他們賴以成功的關鍵和精髓。這點更突出了大資料的“非靜態”屬性,你的資料處理策略可能需要隨時變化來應對需求的改變。

而一個資料科學團隊能與公司內的所有團隊都配合的如此之好(即使他們不會再同每個員工面對面交流了)也是一件非常了不起的事。這不僅意味著資料團隊能保證一直對公司的商業目標保持最貼切的理解,也強調了公司保持基於資料的決定方式的重要性。畢竟如果沒有人會依據它們來行動的話,你有再多的資料也沒有用。

via:cloudcomputing news.net