[ 導讀 ]正值求職、跳槽季,無論你是換工作還是找實習,沒有真本事都是萬萬不行的,可是如何高效率複習呢?今天我們為大家精心準備了一份 AI相關崗位的面試題,幫大家掃清知識盲點,自信上場!
機器學習工程師面試
必備面試題:
- 你會在時間序列資料集上使用什麼交叉驗證技術?是用k倍或LOOCV?
- 你是怎麼理解偏差方差的平衡的?
- 給你一個有1000列和1百萬行的訓練資料集,這個資料集是基於分類問題的。經理要求你來降低該資料集的維度以減少模型計算時間,但你的機器記憶體有限。你會怎麼做?
- 全球平均溫度的上升導致世界各地的海盜數量減少。這是否意味著海盜的數量減少引起氣候變化?
- 給你一個資料集,這個資料集有缺失值,且這些缺失值分佈在離中值有1個標準偏差的範圍內。百分之多少的資料不會受到影響?為什麼?
- 你意識到你的模型受到低偏差和高方差問題的困擾。那麼,應該使用哪種演算法來解決問題呢?為什麼?
- 協方差和相關性有什麼區別?
- 真陽性率和召回有什麼關係?寫出方程式。
- Gradient boosting演算法(GBM)和隨機森林都是基於樹的演算法,它們有什麼區別?
- 你認為把分類變數當成連續型變數會更得到一個更好的預測模型嗎?
- “買了這個的客戶,也買了......”亞馬遜的建議是哪種演算法的結果?
- 在k-means或kNN,我們是用歐氏距離來計算最近的鄰居之間的距離。為什麼不用曼哈頓距離?
- 我知道校正R2或者F值是用來評估線性迴歸模型的。那用什麼來評估邏輯迴歸模型?
- 為什麼樸素貝葉斯如此“樸素”?
- 花了幾個小時後,現在你急於建一個高精度的模型。結果,你建了5 個GBM(Gradient Boosted Models),想著boosting演算法會展現“魔力”。不幸的是,沒有一個模型比基準模型表現得更好。最後,你決定將這些模型結合到一起。儘管眾所周知,結合模型通常精度高,但你就很不幸運。你到底錯在哪裡?
以上題目答案詳解:
https://www.tinymind.cn/articles/109
推薦收藏:
機器學習教材中的 7 大經典問題
https://www.tiny
演算法工程師面試題
工作中的演算法工程師,很多時候,會將生活中轉瞬即逝的靈感,付諸產品化。
將演算法研究應用到工作中,與純粹的學術研究有著一點最大的不同,即需要從使用者的角度思考問題。很多時候,你需要明確設計的產品特徵、提升的資料指標,是不是能真正迎合使用者的需求,這便要求演算法工程師能在多個模型間選擇出最合適的那個,然後通過快速迭代達到一個可以走向產品化的結果。
知識儲備作為成功的根底亦必不可少,以下是營長為你精選的演算法面試,幫你檢查下自己的技能是否線上。
必備面試題:
LDA(線性判別分析) 和 PCA 的區別與聯絡。
K-均值演算法收斂性的證明。
如何確定 LDA (隱狄利克雷模型) 中主題的個數。
隨機梯度下降法的一些改進演算法。
L1正則化產生稀疏性的原因。
如何對貝葉斯網路進行取樣 。
從方差、偏差角度解釋 Boosting 和 Bagging。
ResNet的提出背景和核心理論。
LSTM是如何實現長短期記憶功能的。
WGAN解決了原始 GAN 中的什麼問題。
以上題目答案詳解:
https://www.tinymind.cn/articles/1275
推薦收藏:
是男人就過8題!樓教主出題,請接招
https://www.tinymind.cn/articles/47
演算法和程式設計面試題精選TOP50!(附程式碼+解題思路+答案)
https://www.tinymind.cn/articles/375
深度學習12大常見面試題
必備面試題:
1.什麼是深度學習?為什麼它會如此受歡迎?
3.深度學習與機器學習有什麼區別?
4.深度學習的先決條件是什麼?
5.選擇哪些工具/語言構建深度學習模型?
6.為什麼構建深度學習模型需要使用GPU?
7.何時(何處)應用神經網路?
8.是否需要大量資料來訓練深度學習模型?
9.哪裡可以找到一些基本的深度學習專案用來練習?
10.深度學習的一些免費學習資源。
最後附上深度學習的相關面試問題有哪些?
深度學習模型如何學習?
深度學習模型有哪些侷限性?
前饋神經網路和遞迴神經網路之間有什麼區別?
什麼是啟用特徵函式?
什麼是CNN,它有什麼用途?
什麼是池化? 簡述其工作原理。
什麼是dropout層,為什麼要用dropout層?
什麼是消失梯度問題,如何克服?
什麼是優化函式?說出幾個常見的優化函式。
以上題目答案詳解:
https://www.tinymind.cn/articles/608
Python常見面試題
100+Python程式設計題給你練~(附答案)
https://www.tinymind.cn/articles/3987
10個Python常見面試題,這些弄不明白不要說學過Python!
https://www.tinymind.cn/articles/376
Google人工智慧面試題
必備面試題:
求導1/x。
畫出log (x+10)曲線。
怎樣設計一次客戶滿意度調查?
一枚硬幣拋10次,得到8正2反。試析拋硬幣是否公平?p值是多少?
接上題。10枚硬幣,每一枚拋10次,結果會如何?為了拋硬幣更公平,應該怎麼改進?
解釋一個非正態分佈,以及如何應用。
為什麼要用特徵選擇?如果兩個預測因子高度相關,係數對邏輯迴歸有怎樣的影響?係數的置信區間是多少?
K-mean與高斯混合模型:K-means演算法和EM演算法的差別在哪裡?
使用高斯混合模型時,怎樣判斷它適用與否?(正態分佈)
聚類時標籤已知,怎樣評估模型的表現?
為什麼不用邏輯迴歸,而要用GBM?
每年應聘Google的人有多少?
你給一個Google APP做了些修改。怎樣測試某項指標是否有增長
描述資料分析的流程。
高斯混合模型 (GMM) 中,推導方程。
怎樣衡量使用者對視訊的喜愛程度?
模擬一個二元正態分佈。
求一個分佈的方差。
怎樣建立中位數的Estimator?
如果迴歸模型中的兩個係數估計,分別是統計顯著的,把兩個放在一起測試,會不會同樣顯著?
以上題目答案詳解:
https://www.tinymind.cn/articles/98
蘋果人工智慧面試題
必備面試題:
有成千上萬個使用者,每個使用者都有 100 個交易,在 10000 個產品和小組中,使用者所參與有意義的部分,你是如何處理這一問題的?
為了消除欺詐行為,我們對這些資料進行預篩選,如何才能找到一個資料樣本,幫助我們判斷一個欺詐行為的真實性?
給出兩個表格,一個表格用來儲存使用者 ID 以及購買產品 ID(為1個位元組),另一個表格則儲存標有產品名稱的產品 ID。我們嘗試尋找被同一使用者同時購買的這樣一個成對的產品,像葡萄酒和開瓶器,薯片和啤酒。那麼,如何去尋找前 100 個同時存在且成對出現的產品?
詳細描述 L1 正則化和 L2 正則化二者之間的區別,特別是它們本身對模型訓練過程的影響有什麼不同?
假設你有 10 萬個儲存在不同伺服器上的檔案,你想對所有的檔案進行加工,那麼用 Hadoop 如何處理?
Python 和 Scala 之間有什麼區別?
解釋一下 LRU Cache 演算法。
如何設計一個客戶——伺服器模型,客服端每分鐘都可以傳送位置資料。
如何將資料從一個 Hadoop 聚類傳遞給另一個 Hadoop 聚類?
Java 中的記憶體有哪些不同的型別?
你是如何處理數百個標題中的後設資料這一繁瑣任務的?
在資料流和可訪問性方面,如何在隱藏時間幀內進行測量?其中在隱藏時間幀內,核心超負荷將計算機能量重定向到 cellar dome 的過度複雜檔案系統的邊界結構。
你最希望擁有的超能力是什麼?
如果你有一個時間序列感測器,請預測其下一個讀數。
使用 SQL 建立 market basket 輸出。
你有沒有過心理物理學實驗的經驗?(Research Portfolio based question)
你在表徵方法上的專長是什麼?通常使用什麼?你是如何在研究中使用它,有沒有什麼有趣的結果?(Research Portfolio based question)
如何進行故障分析?
檢查一個二叉樹是否為左右子樹上的映象。
什麼是隨機森林?為什麼樸素貝葉斯效果更好?
以上題目答案詳解:
https://www.tinymind.cn/articles/139