面試總結-百度(2)

李博Garvin發表於2015-04-02

百度資料探勘部門

     跟一面隔了差不多一個星期,收到了二面的通知,這次不是去百度大廈,是去科技園。第一次來科技園,發現這裡還是一片工地,有很多大的IT公司,看到漢王科技、IBM之類的。

     面試官是一個三十五歲左右的一個看似像是部門leader的人。拿著電腦,邊面試邊處理工作,氛圍比一面的時候輕鬆了許多。先是問了下基本情況,比較感興趣實驗室是做什麼的。然後指出了我在一個專案中使用的機器學習的錯誤,一看就是行家。一直微笑著提各種尖銳的問題。瞭解大致情況後開始做題。

題目

(1)資料處理題目
       
        已知n個順序打散的使用者行文,ID(qq號),狀態(1表示上線,0下線),時間。已知0時刻再現人數是x個,求第1時刻的人數。

答:這道題其實很簡單,建立一個陣列,每兩個時刻區間內,上線就總數加一,下線就減一。

一開始我沒完全領會到意圖,採用的方法是求得每個使用者的上線時間區間,然後再找到1時刻上線的人。經過提示,想到的跟正確答案類似的結,但是因為我沒說是用陣列存,我說用list,空間複雜度大了一些。


(2)推薦欄

       假設搜尋的詞是“劉德華”,你該怎樣推薦邊欄的推薦人物。

答:以下是我的答案,判斷重名的可能性,找到是哪個“劉德華”,根據搜尋頻率可以判斷出來。
(1)然後給使用者打標籤,“歌手”、“演員”等,推薦相關條目下的高熱度人物。
(2)接著遍歷相關時效性新聞,找到同時出現的關聯度高的人物。
(3)遍歷此人出現的網頁,找到關聯人物。(期間問了如何去噪,比如編輯小王這種,我的回答是可以找到網頁的第一段內容判斷,還有就是根據比例,儘可能多的遍歷網頁)
(4)根據貼吧、微博資訊,個人媒體
(5)根據其它也搜尋“劉德華”的人的搜尋結果,也就是一種針對使用者的協同過濾。(答上這個他很滿意)
(6)這條是他加上的,我沒想到。根據使用者的點選反饋,他搜完劉德華,又點了什麼人,就推薦什麼人。


經驗是,不要裝逼,踏實的想怎麼實現需求,花哨的程式碼沒用,主要是效率要高。另外就是,腦子要快,順著提示往上爬。


/********************************

* 本文來自部落格  “李博Garvin“

* 轉載請標明出處:http://blog.csdn.net/buptgshengod

******************************************/



相關文章