攜程演算法筆試題知識點

蘆金宇發表於2018-09-06

判別式模型(Discriminative Model)是直接對條件概率p(y|x;θ)建模。常見的判別式模型有 線性迴歸模型、線性判別分析、支援向量機SVM、神經網路等。

 

生成式模型(Generative Model)則會對x和y的聯合分佈p(x,y)建模,然後通過貝葉斯公式來求得p(yi|x),然後選取使得p(yi|x)最大的yi,即:常見的生成式模型有 隱馬爾可夫模型HMM、樸素貝葉斯模型、高斯混合模型GMM、LDA等。

 

準確度並不適合於衡量不平衡類別問題

當資料有一個 0 均值向量時,PCA 有與 SVD 一樣的投射,否則在使用 SVD 之前,你必須將資料均值歸 0。

 

Stage 是spark 中一個非常重要的概念 ,

在一個job 中劃分stage 的一個重要依據是否有shuflle 發生 ,也就是是否會發生資料的重組 (重新組織資料)。

在一個stage 內部會有很多的task 被執行,在同一個stage 中 所有的task 結束後才能根據DAG 依賴執行下一個stage 中的task.

job 有很多工組成,每組任務可以任務是一個stage

Task 是spark 中另一個很重要的概念 ,

task 跟 partition  block 等概念緊密相連 ,task 是執行job 的邏輯單元 ,在task 會在每個executor 中的cpu core 中執行

Job 是一個比task 和 stage 更大的邏輯概念,

job 可以認為是我們在driver 或是通過spark-submit 提交的程式中一個action ,在我們的程式中有很多action  所有也就對應很多的jobs

 

Batchsize就是每次把多少條資料輸入給神經網路

在r 維空間中,線性決策面的VC維為r+1。

機器學習中做特徵選擇時可能用到的方法有:卡方,資訊增益,平均互資訊,期望交叉熵

相關文章