錯題知識點回顧1

王本寶發表於2020-10-24

大資料

1、資料預處理的主要步驟分為:
資料清理、資料整合、資料規約、資料變換

資料清理:通過填補缺失值、光滑噪聲資料,平滑或刪除離群點,並解決資料的不一致性來“清理“資料。否則輸出的結果是不可靠的。

資料整合:資料分析任務多半涉及資料整合。資料整合將多個資料來源中的資料結合成、存放在一個一致的資料儲存,如資料倉儲中。這些源可能包括多個資料庫、資料方或一般檔案。

資料規約:資料歸約技術可以用來得到資料集的歸約表示,它小得多,但仍接近地保持原資料的完整性。 這樣,在歸約後的資料集上挖掘將更有效,併產生相同(或幾乎相同)的分析結果。資料變換資料變換包括對資料進行規範化,離散化,稀疏化處理,達到適用於挖掘的目的。

2、為資料的總體分佈建模,把多維空間劃分成組等問題屬於資料探勘的哪一類任務?
建模描述
其他選項分析:
1)探索性資料分析(EDA,Exploratory Data Analysis):

對資料進行清洗,對資料進行描述(描述統計量,圖表),檢視資料分佈,比較資料間的關係,培養對資料的直覺,對資料進行總結等。
傳統統計分析步驟:
提出問題->準備資料->建模->分析->得出結論
探索性資料分析步驟:
提出問題->準備資料->分析->建模->得出結論

EDA注重資料的真實分佈,強調資料的視覺化,使分析者一目瞭然看到資料中的規律,從而得到啟發,建立何時的資料模型。
2)預測建模

1預測方法和模型選擇->
2預測指標和確定指標評價體系->
3檢驗、修正不合理的預測模型->
4計算預測值與分析結果,並根據最新反饋資訊修正預測結果

主要預測模型有:線性迴歸模型、指數平滑模型、趨勢外推模型、ARIMA預測模型(差分整合移動自迴歸)、馬爾可夫預測模型、投入產出預測模型、灰色預測模型、人工神經網路預測模型(BP神經網路+非線性函式理論)。

3、考慮值集{1、2、3、4、5、90},其截斷均值(p=20%)是(3.5)
截斷均值計算:
共6個數,p=0.2,則前後各去掉int(6*0.1)個數,得到(2,3,4,5)取均值=3.5

4、最大最小規範化,對映到[0,1]
最大最小公式

演算法

1、排序演算法
個數約為50K的數列需要進行從小到大排序,數列特徵是基本逆序(多數數字從大到小,個別亂序),以下哪種排序演算法在事先不瞭解數列特徵的情況下效能最優(不考慮空間限制)。
1
冒泡、選擇、插入,基本時間複雜度為O(N^2)
題目中要求升序/降序,就是改進的氣泡排序,近似O(N)。快速排序時間複雜度退化成O(N^2),而堆排序無論任何情況下的時間複雜度都是O(NlogN)。

相關文章