更多幹貨內容請關注微信公眾號“AI 前線”,(ID:ai-front)
微軟在企業中的統治地位是眾所周知的。微軟已經駕馭了雲端計算浪潮。在第一財政季度,其 Azure 服務和 Office 365 線上生產力業務的收入分別增長了 90%和 42%。
在微軟 CEO Satya Nadella 最近致所有微軟員工的一封信中,Intelligent Cloud 和 Intelligent Edge 組建了兩支新團隊,以塑造下一階段的創新。這意味著人工智慧將要給微軟的業務帶來十分重大的改變。毋庸置疑,微軟在此公告之後可能會招聘更多 AI 相關員工。所以,現在你的機會來了。
像大多數僱傭工程師的其他公司一樣,微軟有一套經典的面試過程。通常有電話面試(涉及編碼),然後進行現場面試。現場有大約 4-5 輪面試。面試過程中可能有 2-3 個確實深入研究資料科學相關的問題,包括研究和模型。其餘的目的是測試編碼技能。
合併 k(在這種情況下 k = 2)個陣列並對它們進行排序。
如何最好地選擇 500 萬個搜尋查詢的代表性樣本?
三個朋友告訴你今天會下雨,他們中每個人都有三分之一的概率說謊,那麼今天下雨的可能性是多少?
你能解釋樸素貝葉斯的基本原理嗎?如何設定閾值?
你能解釋一下 MapReduce 是什麼以及它是如何工作的?
你能解釋 SVM 嗎?
你如何檢測新的觀察結果是否異常?什麼是偏置 - 方差權衡?
如何從產品使用者群中隨機選擇一個樣本?
你如何實現自動完成?
描述梯度提升的工作原理。
在整數列表中查詢子序列的最大值。
你會如何總結 twitter 推文?
在應用機器學習演算法之前解釋資料爭用(wrangling )和清洗的步驟。
如何處理不平衡的二進位制分類?
如何測量資料點之間的距離?
定義方差。
箱形圖和直方圖有什麼區別?
你如何解決 L2 正則化迴歸問題?
如何通過使用一些計算技巧來更快地計算逆矩陣?
如何在沒有計算器的情況下執行一系列計算。解釋步驟背後的邏輯。
好的和壞的資料視覺化之間有什麼區別?
你如何找到百分位數?為它編寫程式碼。
從一系列值中查詢最大總和子序列。
正則化指標 L1 和 L2 有哪些不同?
建立一個函式來檢查單詞是否是迴文。
亞馬遜從成為“地球上最大的書店”變為“地球上最以客戶為中心的公司”。執行長傑夫·貝佐斯一次又一次地在他的致股東信中定義了公司的發展道路。亞馬遜利用 Alexa 部署深度語言學習功能,並通過 AWS 為 AI 提供雲基礎架構。它還在 Amazon.com 上大規模地構建和部署了世界上第一批推薦系統。
在現場面試的過程中,會有一場稱為 Bar 面試。Bar raiser 的意思是,面試小組中最有經驗的人,他的動機是決定你是否在亞馬遜的前 50% 的員工中。Bar raiser 有權否決一個候選人,不管其他面試者是否喜歡這個候選人。
邏輯迴歸模型中如何知道係數是什麼?
凸和非凸成本函式之間的區別 ; 當成本函式是非凸的時候它是什麼意思?
隨機權重分配是否優於為隱藏層中的單位分配相同的權重?
給出一個條形圖並且想象你正從上面倒水,如何確定條形圖中可以儲存多少水?
什麼是過擬合?
主要會員費的變化如何影響市場?
為什麼梯度檢查很重要?
描述樹,SVM,隨機森林和 XGBoost 演算法。談談他們的優點和缺點。
你如何在天平上重複稱重 9 個彈珠三次以選擇最重的彈珠?
查詢西雅圖客戶過去 6 個月中前 10 名利潤最高的產品的累計總和。
描述特定模型選擇的標準。降維為什麼重要?
邏輯迴歸和線性迴歸的假設是什麼?
如果你可以構建完美(100%準確度)的分類模型來預測某些客戶行為,那麼
應用程式中會出現什麼問題?
專案位置 A 的專案概率為 0.6,專案位置 B 的概率為 0.8。在亞馬遜網站上找到專案的概率是多少?
給定帶有 ID 和數量列的“csv”檔案,5000 萬條記錄和資料大小為 2 GB,請用
您選擇的任何語言編寫一個程式來聚合 QUANTITY 列。
使用陣列實現迴圈佇列。
如果您每月都有時間序列資料,那麼它有大量的資料記錄,您將如何發現本月與前幾個月的數值存在顯著差異?
比較套索和嶺迴歸。
MLE 和 MAP 推斷有什麼區別?
給定一個帶有輸入的函式:一個 N 個隨機排序數的陣列,以及一個 int K,返回一個 K 個數最大的陣列。
當使用者瀏覽亞馬遜網站時,他們正在執行幾項操作。如果他們的下一個行動是購買行為,建立模型的最佳方式是什麼?
鑑於全國範圍內可能性很低,估計一個城市的疾病概率。在這個城市隨機詢問 1000 人,全部為負面反應(無疾病)。這個城市發病的概率是多少?
描述 SVM。
K-means 如何工作?你會選擇什麼樣的距離度量?如果不同的特徵有不同的動態範圍呢?
什麼是提升 (Boosting) 演算法?
Facebook 不需要過多介紹。經過近十年來累積大量資料之後,2013 年起,Facebook 內的工程師開始嘗試使用 CNN。之後,Facebook 認識到 AI 和 Deep Learning 的重要性,並聘用了他們的第一位 AI 工程師——Google 大腦 Marc'Aurelio Ranzato。隨後又聘請了 CNN 的發明人 Yann LeCun(現已不再負責 Facebook AI 研究院的領導工作)。
Facebook 面試過程是大多數公司使用的標準面試過程。可參考:
https://www.facebook.com/notes/facebook-engineering/get-that-job-at-facebook/10150964382448920/
有一個 100 層的建築物,2 個相同的雞蛋。您如何使用 2 個雞蛋來查詢閾值樓層 N,在 N 層及 N 層以上,雞蛋肯定會摔碎。
從 100 個硬幣中隨機抽取一枚硬幣:1 枚不公平的硬幣(都是正面),99 枚公平的硬幣(一正一反)並投擲 10 次。如果結果是 10 個正面,那麼這枚硬幣是不公平的概率為多少?
在 Python 中為數值資料集編寫排序演算法。
Facebook 想要開發一種方法來估計人們生日的月份和日期,而不管人們是否直接給我們提供這些資訊。你會提出什麼方法和資料來幫助完成這項任務?使用 python 內建包來處理'csv'資料。
您如何比較兩種不同後端引擎的自動生成 Facebook“朋友”建議的相對錶現?給定 KPI,選擇正確的指標,執行 ETL。(使用 SQL / 程式碼)
你即將坐飛機去西雅圖。你想知道你是否應該帶一把雨傘。你可以給 3 個隨機的朋友打電話,每個人都會獨立詢問是否下雨。你的每個朋友都有三分之二的機會告訴你真相,並有三分之一的機會通過撒謊與你打交道。所有 3 位朋友都告訴你正在下雨。在西雅圖實際下雨的可能性有多大?(同微軟的那道題)
考慮一個有 2 名玩家 A 和 B 的比賽。A 有 8 個棋子,B 有 6 個棋子。比賽進行如下。首先,A 滾動一個公平的六面模具,並且模具上的數字決定 A 從 B 接收多少個寶石。接下來,B 滾動相同的模具,並且完全相同的事情發生在相反的位置。本輪結束。誰在比賽結束時擁有更多的寶石則贏得比賽。如果玩家在回合結束時獲得相同數量的寶石,則會形成平局並且接下來會有一輪。B 在 1,2,...,n 輪獲勝的概率是多少?
你如何得到一個句子中每個字母的數量?
通過了解性別或身高,你如何證明男性平均身高比女性高?
什麼是猴子補丁(monkey patch)?
給定一個物件列表 A 和另一個與 A 相同的列表 B,一個元素被刪除,請找到被刪除的元素。
給定一個整數列表(正數和負數),編寫一個演算法來查詢是否至少有一對總和為零的整數。你會如何提高演算法的效能?
製作 2 個變數的直方圖。
在 SQL 中構建回帖計數的直方圖(包含 x 個回覆,x + 1 個回覆等的帖子數)。建立一個表格,其中包含每個使用者每天使用的功能使用情況摘要(跟蹤使用者的最後一個操作並每天彙總)。
你在一個賭場擲色子,如果擲出 5 則贏,並獲得 10 美元的獎金。你能賺多少?如果你一直玩到你贏了 (不管花多長時間),那麼你的預期支出是多少?
如果您試圖讓客戶註冊 Facebook 廣告,您會向小型企業展示什麼指標?
給定傳送好友請求和收到好友請求的表格,找到擁有最多好友的使用者。在平臺上花費的贊 / 使用者和分鐘數正在增加,但使用者總數正在減少。最有可能的根本原因是什麼?
多少人在他們的檔案中列出的高中是真實的?我們如何發現並大規模部署尋找無效學校的方法?
你如何將暱稱(Pete,Andy,Nick,Rob 等)對映到真實姓名?
Facebook 認為讚的年同比增長 10%,為什麼會這樣呢?
如果一位管理人員表示他們希望將新聞源廣告的數量加倍,那麼如何確定這是不是一個好主意?
谷歌擁有一些世界上最有才華的人工智慧研究科學家、資料工程師和資料科學家。Google 執行長 Sundar Pichai 專注於將 Google 重新整合為一家人工智慧第一公司。谷歌已經將其所有或大部分產品的人工智慧編碼從 Gmail 遷移到擁有大量資料的自動駕駛系統。
Google 的技術面試流程是標準的技術面試流程。它由電話視訊面試和現場面試組成。詳情參見:
https://careers.google.com/how-we-hire/interview/#interviews-for-software-engineering-and-technical-roles
什麼是 1 / x 的導數?
繪製曲線 log(x + 10)
如何設計客戶滿意度調查?
擲硬幣十次,得到結果為 8 個正面和 2 個反面。如何分析一枚硬幣是否公平?p 值是什麼?
你有 10 個硬幣。你每擲硬幣 10 次(共 100 次)並觀察結果。你會修改你的方法來測試硬幣的公平性嗎?
解釋一個不是正態的概率分佈以及如何應用它?
為什麼使用特徵選擇?如果兩個預測因子高度相關,那麼對邏輯迴歸中的係數有什麼影響?係數的置信區間是多少?
K- 均值和高斯混合模型:K 均值和 EM 之間有什麼區別?
當使用高斯混合模型時,你怎麼知道它適用?(正態分佈)
如果標籤在聚類專案中是已知的,那麼如何評估模型的效能?
有一個谷歌應用程式,做了一個改變。如何測試指標是否增加?
描述資料分析的過程?
為什麼不進行邏輯迴歸,為什麼選擇 GBM?
推導 GMM 方程。
如何衡量有多少使用者喜歡視訊?
模擬雙變數法線
匯出分佈的方差
每年有多少人申請 Google?
如何建立中位數的估計量?
如果迴歸模型中的兩個係數估計值中的每一個都具有統計顯著性,那麼您是否期望兩者的測試仍然很重要?
Uber 的技術面試流程是一個標準的技術面試流程,由電話視訊面試和現場面試組成(通常是 5-6 輪面試)。Uber 在其工程部落格上詳細解釋了這一點:
https://eng.uber.com/engineering-interview/
描述二值分類
計算 ROC 曲線的 AUC
如何使用 A / B 測試?
使用隨機伯努利試驗發生器編寫函式以返回來自正態分佈的值樣本
P 值是什麼意思?
解釋線性迴歸、線性假設和線性方程
定義 CLT,它和 Uber 有何關係?
解釋 Logistic 迴歸、Logistic 假設和 Logistic 方程
一個車隊要花多少錢才能看到我們每個大城市的街景照片?
如何建立汽車租賃司機成本的模型?
解釋 surge 定價演算法是如何工作的,以及如何測試哪種策略更有效?
什麼是交叉驗證?
網路效應如何影響選擇來定義實驗和測量結果?
什麼是異常檢測方法?
駕駛狀況和擁堵對 Uber 收入有何影響?
駕駛狀況和擁堵如何影響 Uber 的收入或司機體驗?
快取記憶體如何工作以及如何在資料科學中使用它?
如何優化各種營銷渠道之間的營銷支出?
如何計算一個城市 Uber Pool 的半徑?
如何決定一個地點是否應該包含在 Uber Pool 中?
什麼是時間序列預測技術?
解釋 PCA,PCA 假設,PCA 方程式。
Uber 會造成交通堵塞嗎?
AI 被包含在蘋果硬體之上的軟體中。也就是說,人工智慧是蘋果的一種服務。根據他們在 2018 年一季度的收益報告,他們的服務收入比去年增長了 18%。截至去年 12 月底,所有服務產品的付費使用者數量都超過了 2.4 億。
與大多數僱傭工程師的其他公司一樣,蘋果公司也有典型的面試流程,電話面試與現場面試兼有。現場大約有 4-5 名團隊成員進行面試。詳情可參考:
https://www.quora.com/What-is-the-recruiting-and-hiring-process-of-Apple-How-does-one-contact-their-HR-department
如何以數百萬的交易數量吸引數百萬使用者,並將這些使用者集中在一個有意義的細分市場中?
我們對資料進行預先篩選以消除欺詐威脅 - 那麼我們如何找到可用於確定欺詐事件真實表示的資料樣本?
給定一張帶有使用者 ID 和使用者購買的產品 ID 的 1B 的表格,以及具有用產品名稱對映的產品 ID 的另一張表格。我們試圖找到經常由同一使用者一起購買的配對產品,例如葡萄酒和開瓶器,薯片和啤酒。如何找到這些並存的成對產品中的前 100 名?
請詳細描述 L1 和 L2 正規化之間的區別,特別是對於它們對模型培訓過程本身的影響的差異。
假設你有 100,000 個檔案分佈在多個伺服器上,如何在 Hadoop 中處理這些檔案?
Python 和 Scala 有什麼區別?
解釋 LRU 快取。
如何設計一個客戶端 - 伺服器模型,客戶端每分鐘傳送一次位置資料?如何將資料從一個 Hadoop 叢集傳輸到另一個 Hadoop 叢集?
Java 中有哪些不同型別的 memory?
如何處理數百個標題的後設資料同時進行的日常繁瑣任務?
在資料流和可訪問性方面,如何衡量在隱藏時間框架內的成功,在這個時間框架中,核心超載了將計算機能量重定向到地窖圓頂的過度複雜檔案系統的邊界結構?
你最想擁有的超能力是什麼?
你有時間系列的感測器,預測下一個讀數。
使用 SQL 建立超市購物籃輸出。
你有什麼心理實踐經驗?(基於研究組合的問題)
您在表徵方面的專長是什麼?通常使用什麼?你如何在研究中使用它並找到有趣的結果?(Research Portfolio based question)
你如何處理失效分析?
檢查一個二叉樹是否是左右子樹上的映象。
什麼是隨機森林?為什麼樸素貝葉斯更好?
六家代表著頂尖科技的技術企業,六套面試題,大家可以在這幾套題中看到每家公司的側重點有何不同,建議先收藏再慢慢研究。如果你能夠為上面的面試題給出解答,歡迎留言聯絡我們,我們將很樂意把你的解答釋出出來給其他讀者參考,大家共同進步!如果你在面試中遇到了其他問題,也請留言或加入我們的社群,相信 AI 前線社群萬能的大牛們會為你解答!
如果你能把上面這幾套面試題研究透徹,就算進不了這六家公司,相信國內的 AI 大廠同樣會為你敞開大門,未來就在你的手中!
參考連結
https://medium.com/acing-ai/microsoft-ai-interview-questions-acing-the-ai-interview-be6972f790ea
https://medium.com/acing-ai/amazon-ai-interview-questions-acing-the-ai-interview-3ed4e671920f
https://medium.com/acing-ai/facebook-ai-interview-questions-acing-the-ai-interview-5982add0af55
https://medium.com/acing-ai/google-ai-interview-questions-acing-the-ai-interview-1791ad7dc3ae
https://medium.com/acing-ai/uber-ai-interview-questions-acing-the-ai-interview-9532794bc057
https://medium.com/acing-ai/apple-ai-interview-questions-acing-the-ai-interview-803a65b0e795