資料探勘面試筆試題（附答案）

一、單選題（共80題）

1、( D )的目的縮小資料的取值範圍，使其更適合於資料探勘演算法的需要，並且能夠得到和原始資料相同的分析結果。

A.資料清洗 B.資料整合

C.資料變換 D.資料歸約

2、某超市研究銷售紀錄資料後發現，買啤酒的人很大概率也會購買尿布，這種屬於資料探勘的哪類問題？(A)
A. 關聯規則發現 B. 聚類
C. 分類 D. 自然語言處理

3、以下兩種描述分別對應哪兩種對分類演算法的評價標準？(A)
(a)警察抓小偷，描述警察抓的人中有多少個是小偷的標準。
(b)描述有多少比例的小偷給警察抓了的標準。
A. Precision,Recall B.Recall,Precision
A. Precision,ROC D. Recall,ROC

4、將原始資料進行整合、變換、維度規約、數值規約是在以下哪個步驟的任務？(C)
A. 頻繁模式挖掘 B. 分類和預測

C. 資料預處理 D. 資料流挖掘

5、當不知道資料所帶標籤時，可以使用哪種技術促使帶同類標籤的資料與帶其他標籤的資料相分離？(B)
A. 分類 B. 聚類

C. 關聯分析 D. 隱馬爾可夫鏈

6、建立一個模型，通過這個模型根據已知的變數值來預測其他某個變數值屬於資料探勘的哪一類任務？(C)
A. 根據內容檢索 B. 建模描述
C. 預測建模 D. 尋找模式和規則

7、下面哪種不屬於資料預處理的方法？ (D)
A.變數代換 B.離散化

C.聚集 D.估計遺漏值

8、假設12個銷售價格記錄組已經排序如下：5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215 使用如下每種方法將它們劃分成四個箱。等頻（等深）劃分時，15在第幾個箱子內？ (B)
A.第一個 B.第二個

C.第三個 D.第四個

9、下面哪個不屬於資料的屬性型別：(D)
A.標稱 B.序數

C.區間 D.相異

10、只有非零值才重要的二元屬性被稱作：( C )
A.計數屬性 B.離散屬性

C.非對稱的二元屬性 D.對稱屬性

11、以下哪種方法不屬於特徵選擇的標準方法： (D)
A.嵌入 B.過濾

C.包裝 D.抽樣

12、下面不屬於建立新屬性的相關方法的是： (B)
A.特徵提取 B.特徵修改

C.對映資料到新的空間 D.特徵構造

13、下面哪個屬於對映資料到新的空間的方法？ (A)
A.傅立葉變換 B.特徵加權

C.漸進抽樣 D.維歸約

14、假設屬性income的最大最小值分別是12000元和98000元。利用最大最小規範化的方法將屬性的值對映到0至1的範圍內。對屬性income的73600元將被轉化為：(D)
A.0.821 B.1.224

C.1.458 D.0.716

15、一所大學內的各年紀人數分別為：一年級200人，二年級160人，三年級130人，四年級110人。則年級屬性的眾數是： (A)
A.一年級 B.二年級

C.三年級 D.四年級

16、下列哪個不是專門用於視覺化時間空間資料的技術：(B)
A.等高線圖 B.餅圖

C.曲面圖 D.向量場圖

17、在抽樣方法中，當合適的樣本容量很難確定時，可以使用的抽樣方法是： (D)
A.有放回的簡單隨機抽樣

B.無放回的簡單隨機抽樣

C.分層抽樣

D 漸進抽樣

18、資料倉儲是隨著時間變化的,下面的描述不正確的是 (C)
A.資料倉儲隨時間的變化不斷增加新的資料內容
B.捕捉到的新資料會覆蓋原來的快照
C.資料倉儲隨事件變化不斷刪去舊的資料內容
D.資料倉儲中包含大量的綜合資料,這些綜合資料會隨著時間的變化不斷地進行重新綜合

19、下面關於資料粒度的描述不正確的是: (C)
A.粒度是指資料倉儲小資料單元的詳細程度和級別
B.資料越詳細,粒度就越小,級別也就越高
C.資料綜合度越高,粒度也就越大,級別也就越高
D.粒度的具體劃分將直接影響資料倉儲中的資料量以及查詢質量

20、有關資料倉儲的開發特點,不正確的描述是: (A)
A.資料倉儲開發要從資料出發
B.資料倉儲使用的需求在開發出去就要明確
C.資料倉儲的開發是一個不斷迴圈的過程,是啟發式的開發
D.在資料倉儲環境中,並不存在操作型環境中所固定的和較確切的處理流,資料倉儲中資料分析和處理更靈活,且沒有固定的模式

21、關於OLAP的特性,下面正確的是: (D)
(1)快速性 (2)可分析性 (3)多維性 (4)資訊性 (5)共享性
A.(1) (2) (3)
B.(2) (3) (4)
C.(1) (2) (3) (4)
D.(1) (2) (3) (4) (5)

22、關於OLAP和OLTP的區別描述,不正確的是: (C)
A.OLAP主要是關於如何理解聚集的大量不同的資料.它與OTAP應用程式不同
B.與OLAP應用程式不同,OLTP應用程式包含大量相對簡單的事務
C.OLAP的特點在於事務量大,但事務內容比較簡單且重複率高
D.OLAP是以資料倉儲為基礎的,但其最終資料來源與OLTP一樣均來自底層的資料庫系統,兩者面對的使用者是相同的

23、關於OLAP和OLTP的說法,下列不正確的是: (A)
A.OLAP事務量大,但事務內容比較簡單且重複率高
B.OLAP的最終資料來源與OLTP不一樣
C.OLTP面對的是決策人員和高層管理人員
D.OLTP以應用為核心,是應用驅動的

24、設X={1，2，3}是頻繁項集，則可由X產生( C )個關聯規則。
A.4 B.5

C.6 D.7

25、考慮下面的頻繁3-項集的集合：{1,2,3},{1,2,4},{1,2,5},{1,3,4},{1,3,5},{2,3,4},{2,3,5},{3,4,5}假定資料集中只有5個項,採用合併策略,由候選產生過程得到4-項集不包含（ C ）
A.1,2,3,4 B.1,2,3,5

C.1,2,4,5 D.1,3,4,5

26、下面選項中t不是s的子序列的是 ( C )
A.s=<{2,4},{3,5,6},{8}> t=<{2},{3,6},{8}>
B.s=<{2,4},{3,5,6},{8}> t=<{2},{8}>
C.s=<{1,2},{3,4}> t=<{1},{2}>
D.s=<{2,4},{2,4}> t=<{2},{4}>

27、在圖集合中發現一組公共子結構,這樣的任務稱為 ( B )
A.頻繁子集挖掘 B.頻繁子圖挖掘

C.頻繁資料項挖掘 D.頻繁模式挖掘

28、下列度量不具有反演性的是 (D)
A.係數 B.機率

C.Cohen度量 D.興趣因子

29、下列 ( A )不是將主觀資訊加入到模式發現任務中的方法。
A.與同一時期其他資料對比
B.視覺化
C.基於模板的方法
D.主觀興趣度量

30、下面購物籃能夠提取的3-項集的最大數量是多少（C）

TID	項集
1	牛奶,啤酒,尿布
2	麵包,黃油,牛奶
3	牛奶,尿布,餅乾
4	麵包,黃油,餅乾
5	啤酒,餅乾,尿布
6	牛奶,尿布,麵包,黃油
7	麵包,黃油,尿布
8	啤酒,尿布
9	牛奶,尿布,麵包,黃油
10	啤酒,餅乾

A.1 B.2 C.3 D.4

31、以下哪些演算法是分類演算法（B）

A.DBSCAN B.C4.5 C.K-Mean D.EM

32、以下哪些分類方法可以較好地避免樣本的不平衡問題（A）

A.KNN B.SVM C.Bayes D.神經網路

33、決策樹中不包含一下哪種結點 ( C )

根結點（root node)

內部結點（internal node）

外部結點（external node）

葉結點（leaf node）

34、以下哪項關於決策樹的說法是錯誤的 (C)

A. 冗餘屬性不會對決策樹的準確率造成不利的影響
B. 子樹可能在決策樹中重複多次
C. 決策樹演算法對於噪聲的干擾非常敏感
D. 尋找最佳決策樹是NP完全問題

35、在基於規則分類器的中,依據規則質量的某種度量對規則排序,保證每一個測試記錄都是由覆蓋它的“最好的”規格來分類,這種方案稱為 (B)
A. 基於類的排序方案
B. 基於規則的排序方案
C. 基於度量的排序方案
D. 基於規格的排序方案。

36、以下哪些演算法是基於規則的分類器 (A)
A. C4.5 B. KNN

C. Naive Bayes D.ANN

37、可用作資料探勘分析中的關聯規則演算法有（C）。
A. 決策樹、對數迴歸、關聯模式

B. K均值法、SOM神經網路

C. Apriori演算法、FP-Tree演算法

D. RBF神經網路、K均值法、決策樹

38、如果對屬性值的任一組合,R中都存在一條規則加以覆蓋,則稱規則集R中的規則為( B )

A.無序規則 B.窮舉規則 C.互斥規則 D.有序規則

39、用於分類與迴歸應用的主要演算法有: ( D )

A.Apriori演算法、HotSpot演算法

B.RBF神經網路、K均值法、決策樹

C.K均值法、SOM神經網路

D.決策樹、BP神經網路、貝葉斯

40)如果允許一條記錄觸發多條分類規則,把每條被觸發規則的後件看作是對相應類的一次投票,然後計票確定測試記錄的類標號,稱為（A）
A.無序規則 B.窮舉規則 C.互斥規則 D.有序規則

41)考慮兩隊之間的足球比賽：隊0和隊1。假設65%的比賽隊0勝出,剩餘的比賽隊1獲勝。隊0獲勝的比賽中只有30%是在隊1的主場,而隊1取勝的比賽中75%是主場獲勝。如果下一場比賽在隊1的主場進行隊1獲勝的概率為 (C)
A.0.75 B.0.35 C.0.4678 D.0.5738

42)以下關於人工神經網路（ANN）的描述錯誤的有 (A)
A.神經網路對訓練資料中的噪聲非常魯棒

B.可以處理冗餘特徵

C.訓練ANN是一個很耗時的過程

D.至少含有一個隱藏層的多層神經網路

43)通過聚集多個分類器的預測來提高分類準確率的技術稱為 (A)

A.組合(ensemble) B.聚集(aggregate)

C.合併(combination) D.投票(voting)

44)簡單地將資料物件集劃分成不重疊的子集,使得每個資料物件恰在一個子集中,這種聚類型別稱作（ B ）

A.層次聚類 B.劃分聚類

C.非互斥聚類 D.模糊聚類

45)在基本K均值演算法裡,當鄰近度函式採用（ A ）的時候,合適的質心是簇中各點的中位數。
A.曼哈頓距離 B.平方歐幾里德距離

C.餘弦距離 D.Bregman散度
46)（ C ）是一個觀測值,它與其他觀測值的差別如此之大,以至於懷疑它是由不同的機制產生的。
A.邊界點 B.質心

C.離群點 D.核心點
47)BIRCH是一種（ B ）。
A.分類器 B.聚類演算法

C.關聯分析演算法 D.特徵選擇演算法
48)檢測一元正態分佈中的離群點,屬於異常檢測中的基於（ A ）的離群點檢測。

A.統計方法 B.鄰近度

C.密度 D.聚類技術
49)（ C ）將兩個簇的鄰近度定義為不同簇的所有點對的平均逐對鄰近度，它是一種凝聚層次聚類技術。
A.MIN（單鏈） B.MAX（全鏈）

C.組平均 D.Ward方法
50)（ D ）將兩個簇的鄰近度定義為兩個簇合並時導致的平方誤差的增量,它是一種凝聚層次聚類技術。
A.MIN（單鏈） B.MAX（全鏈）

C.組平均 D.Ward方法
51) 下列演算法中，不屬於外推法的是（ B ）。
A.移動平均法 B.迴歸分析法

C.指數平滑法 D.季節指數法
52) 關聯規則的評價指標是：（ C ）。
A. 均方誤差、均方根誤差

B. Kappa統計、顯著性檢驗

C. 支援度、置信度

D. 平均絕對誤差、相對誤差
53)關於K均值和DBSCAN的比較,以下說法不正確的是（ A ）。
   A.K均值丟棄被它識別為噪聲的物件,而DBSCAN一般聚類所有物件。
  B.K均值使用簇的基於原型的概念,而DBSCAN使用基於密度的概念。
   C.K均值很難處理非球形的簇和不同大小的簇,DBSCAN可以處理不同大小和不同形狀的簇。
   D.K均值可以發現不是明顯分離的簇,即便簇有重疊也可以發現,但是DBSCAN會合並有重疊的簇。

54）從研究現狀上看，下面不屬於雲端計算特點的是（ C ）

A.超大規模 B.虛擬化

C.私有化 D.高可靠性

55)考慮這麼一種情況：一個物件碰巧與另一個物件相對接近,但屬於不同的類,因為這兩個物件一般不會共享許多近鄰,所以應該選擇（ D ）的相似度計算方法。
A.平方歐幾里德距離 B.餘弦距離

C.直接相似度 D.共享最近鄰
56) 分析顧客消費行業，以便有針對性的向其推薦感興趣的服務，屬於（ A）問題。

A.關聯規則挖掘 B.分類與迴歸

C.聚類分析 D.時序預測
57)以下哪個聚類演算法不是屬於基於原型的聚類（ D ）。
A.模糊C均值 B.EM演算法

C.SOM                D.CLIQUE
58)關於混合模型聚類演算法的優缺點,下面說法正確的是（ B ）。
   A.當簇只包含少量資料點,或者資料點近似協線性時,混合模型也能很好地處理。
   B.混合模型比K均值或模糊c均值更一般,因為它可以使用各種型別的分佈。
   C.混合模型很難發現不同大小和橢球形狀的簇。
   D.混合模型在有噪聲和離群點時不會存在問題。
59)以下哪個聚類演算法不屬於基於網格的聚類演算法（ D ）。
  A.STING         B.WaveCluster

C.MAFIA D.BIRCH
60)一個物件的離群點得分是該物件周圍密度的逆。這是基於（ C ）的離群點定義。
A．概率 B．鄰近度

C．密度 D．聚類

61、輿情研判，資訊科學側重（ C ）,社會和管理科學側重突發群體事件管理中的群體心理行為及輿論控制研究，新聞傳播學側重對輿論的本體進行規律性的探索和研究。

A.輿論的本體進行規律性的探索和研究

B.輿論控制研究

C.網際網路文字挖掘和分析技術

D.使用者行為分析

62、MapReduce的Map函式產生很多的（ C ）

A.key B.value

C.<key,value> D.Hash

63、Mapreduce適用於（ D ）

A.任意應用程式

B. 任意可在windows servet2008上執行的程式

C.可以序列處理的應用程式

D. 可以並行處理的應用程式

64、PageRank是一個函式,它對Web中的每個網頁賦予一個實數值。它的意圖在於網頁的PageRank越高,那麼它就（ D ）。

A.相關性越高 B.越不重要

C.相關性越低 D.越重要

65、購物籃模型(maket-basket model):用於描述兩種物件之間的一種常見形式的（C）關係

A.一對一 B.一對多

C. 多對多 D. 多對一

66、協同過濾分析使用者興趣,在使用者群中找到指定使用者的相似(興趣)使用者,綜合這些使用者對某一資訊的評價,形成系統對該指定使用者對此資訊的喜好程度（ D ）,並將這些使用者喜歡的項推薦給有相似興趣的使用者。

A. 相似 B.相同

C.推薦 D. 預測

67、大資料指的是所涉及的資料量規模巨大到無法透過目前主流軟體工具,在合理時間內達到擷取、管理、處理、並（ B ）成為幫助企業經營決策更積極目的的資訊。

A.收集 B.整理

C.規劃 D.聚集

68、大資料科學關注大資料網路發展和運營過程中（ D ）大資料的規律及其與自然和社會活動之間的關係。

A.大資料網路發展和運營過程 B.規劃建設運營管理

C.規律和驗證 D.發現和驗證

69、大資料的價值是通過資料共享、（ D ）後獲取最大的資料價值

A.演算法共享 B.共享應用

C. 資料交換 D. 交叉複用

70、社交網路產生了海量使用者以及實時和完整的資料,同時社交網路也記錄了使用者群體的（ C ）,通過深入挖掘這些資料來了解使用者,然後將這些分析後的資料資訊推給需要的品牌商家或是微博營銷公司。

A.地址 B.行為

C.情緒 D.來源

71、通過資料收集和展示資料背後的（ D ）,運用豐富的、具有互動性的視覺化手段,資料新聞學成為新聞學作為一門新的分支進入主流媒體,即用資料包道新聞。

A.資料收集 B.資料探勘

C.真相 D. 關聯與模式

72、CRISP-DM 模型中Evaluation表示對建立的模型進行評估,重點具體考慮得出的結果是否符合（ C ）的商業目的。

A.第二步 B.第三步

C.第一步 D.最後一步

73、發現關聯規則的演算法通常要經過以下三個步驟：連線資料,作資料準備；給定最小支援度和（ D ）,利用資料探勘工具提供的演算法發現關聯規則；視覺化顯示、理解、評估關聯規則

A. 最小興趣度 B. 最小置信度

C. 最大支援度 D. 最小可信度

74、規則I->j,“有可能”,等於所有包含I的購物籃中同時包含J的購物籃的比例,為（ B ）。

A. 置信度 B.可信度

C. 興趣度 D. 支援度

75、如果一個匹配中,任何一個節點都不同時是兩條或多條邊的端點,也稱作（ C ）

A. 極大匹配 B.二分匹配

C完美匹配 D.極小匹配

76、只要具有適當的政策推動,大資料的使用將成為未來提高競爭力、生產力、創新能力以及（ D ）的關鍵要素。

A.提高消費 B.提高GDP

C.提高生活水平 D. 創造消費者盈餘

77、個性化推薦系統是建立在海量資料探勘基礎上的一種高階商務智慧平臺,以幫助（ D ）為其顧客購物提供完全個性化的決策支援和資訊服務。

A.公司 B.各單位

C.跨國企業 D. 電子商務網站

78、雲端計算是對（ D ）技術的發展與運用

A.平行計算 B.網格計算

C.分散式計算 D.三個選項都是

79、（ B ）是Google提出的用於處理海量資料的並行程式設計模式和大規模資料集的並行運算的軟體架構。

A.GFS B.MapReduce

C.Chubby D.BitTable

80、在Bigtable中，（ A ）主要用來儲存子表資料以及一些日誌檔案

A. GFS B. Chubby

C.SSTable D.MapReduce

二、判斷題（共40題）

1、分類是預測資料物件的離散類別，預測是用於資料物件的連續取值。 (對)

2、時序預測迴歸預測一樣，也是用已知的資料預測未來的值，但這些資料的區別是變數所處時間的不同。(錯)

3、資料探勘的主要任務是從資料中發現潛在的規則，從而能更好的完成描述資料、預測資料等任務。 (對)

4、對遺漏資料的處理方法主要有：忽略該條記錄；手工填補遺漏值；利用預設值填補遺漏值；利用均值填補遺漏值；利用同類別均值填補遺漏值；利用最可能的值填充遺漏值。(對)

5、神經網路對噪音資料具有高承受能力，並能對未經過訓練的資料具有分類能力，但其需要很長的訓練時間，因而對於有足夠長訓練時間的應用更合適。(對)

6、資料分類由兩步過程組成：第一步，建立一個聚類模型，描述指定的資料類集或概念集；第二步，使用模型進行分類。(錯)

7、聚類是指將物理或抽象物件的集合分組成為由類似的物件組成的多個類的過程。 (對)

8、決策樹方法通常用於關聯規則挖掘。 (錯)

9、資料規範化指將資料按比例縮放(如更換大單位)，使之落入一個特定的區域（如0-1）以提高資料探勘效率的方法。規範化的常用方法有：最大-最小規範化、零-均值規範化、小數定標規範化。(對)

10、原始業務資料來自多個資料庫或資料倉儲，它們的結構和規則可能是不同的，這將導致原始資料非常的雜亂、不可用，即使在同一個資料庫中，也可能存在重複的和不完整的資料資訊，為了使這些資料能夠符合資料探勘的要求，提高效率和得到清晰的結果，必須進行資料的預處理。(對)

11、資料取樣時，除了要求抽樣時嚴把質量關外，還要求抽樣資料必須在足夠範圍內有代表性。(對)

12、分類規則的挖掘方法通常有：決策樹法、貝葉斯法、人工神經網路法、粗糙集法和遺傳演算法。(對)

13、可信度是對關聯規則的準確度的衡量。 (錯)

14、孤立點在資料探勘時總是被視為異常、無用資料而丟棄。 (錯)

15、Apriori演算法是一種典型的關聯規則挖掘演算法。(對)

16、用於分類的離散化方法之間的根本區別在於是否使用類資訊。　（對）

17、特徵提取技術並不依賴於特定的領域。　　（錯）

18、模型的具體化就是預測公式，公式可以產生與觀察值有相似結構的輸出，這就是預測值。　（對）

19、文字挖掘又稱資訊檢索，是從大量文字資料中提取以前未知的、有用的、可理解的、可操作的知識的過程。（錯）

20、定量屬性可以是整數值或者是連續值。　　（對）

21、視覺化技術對於分析的資料型別通常不是專用性的。　（錯）

22、OLAP技術側重於把資料庫中的資料進行分析、轉換成輔助決策資訊，是繼資料庫技術發展之後迅猛發展起來的一種新技術。（對）

23、Web資料探勘是通過資料庫仲的一些屬性來預測另一個屬性，它在驗證使用者提出的假設過程中提取資訊。（錯）

24、關聯規則挖掘過程是發現滿足最小支援度的所有項集代表的規則。（錯）

25、利用先驗原理可以幫助減少頻繁項集產生時需要探查的候選項個數。（對）

26、先驗原理可以表述為：如果一個項集是頻繁的，那包含它的所有項集也是頻繁的。（錯）

27、迴歸分析通常用於挖掘關聯規則。（錯）

28、具有較高的支援度的項集具有較高的置信度。（錯）

29、維歸約可以去掉不重要的屬性，減少資料立方體的維數，從而減少資料探勘處理的資料量，提高挖掘效率。（對）

30、聚類（clustering）是這樣的過程：它找出描述並區分資料類或概念的模型(或函式)，以便能夠使用模型預測類標記未知的物件類。（錯）

31、對於SVM分類演算法，待分樣本集中的大部分樣本不是支援向量，移去或者減少這些樣本對分類結果沒有影響。（對）

32、Bayes法是一種在已知後驗概率與類條件概率的情況下的模式分類方法，待分樣本的分類結果取決於各類域中樣本的全體。 (錯)

33、在決策樹中，隨著樹中結點數變得太大，即使模型的訓練誤差還在繼續減低，但是檢驗誤差開始增大，這是出現了模型擬合不足的問題。（錯）

34、在聚類分析當中，簇內的相似性越大，簇間的差別越大，聚類的效果就越差。（錯）

35、聚類分析可以看作是一種非監督的分類。（對）

36、K均值是一種產生劃分聚類的基於密度的聚類演算法，簇的個數由演算法自動地確定。（錯

37、基於鄰近度的離群點檢測方法不能處理具有不同密度區域的資料集。（對）

38、如果一個物件不強屬於任何簇，那麼該物件是基於聚類的離群點。（對）

39、大資料的4V特點是Volume、Velocity、Variety、Veracity。（對）

40、聚類分析的相異度矩陣是用於儲存所有物件兩兩之間相異度的矩陣，為一個nn維的單模矩陣。（對）

三、多選題（共30題）

1、噪聲資料的產生原因主要有：（ABCD）

資料採集裝置有問題

在資料錄入過程中發生了人為或計算機錯誤

資料傳輸過程中發生錯誤

由於命名規則或資料程式碼不同而引起的不一致

2、尋找資料集中的關係是為了尋找精確、方便並且有價值地總結出資料的某一特徵的表示,這個過程包括了以下哪些步驟？ (A B C D)

A.選擇一個演算法過程使評分函式最優
B.決定如何量化和比較不同表示擬合資料的好壞
C.決定要使用的表示的特徵和結構
D.決定用什麼樣的資料管理原則以高效地實現演算法

3、資料探勘的預測建模任務主要包括哪幾大類問題？(A B)

A. 分類

B. 迴歸

C. 聚類

D. 關聯規則挖掘

4) 下列屬於不同的有序資料的有：(A B C D)
A.時序資料

B.序列資料

C.時間序列資料

D.事務資料

E.空間資料

5) 下面屬於資料集的一般特性的有：( B C D)
A.連續性

B.維度

C.稀疏性

D.解析度

E.相異性

6）下面屬於維歸約常用的處理技術的有： (A C)
A.主成分分析

B.特徵提取

C.奇異值分解

D.特徵加權

E.離散化

7、噪聲資料處理的方法主要有：（ ABD ）

A.分箱 B.聚類

C.關聯分析 D.迴歸

8、資料探勘的主要功能包括概念描述、趨勢分析、孤立點分析及（ ABCD ）等方面。

A.挖掘頻繁模式　 B.分類和預測　

C.聚類分析 D.偏差分析

9、以下各項均是針對資料倉儲的不同說法,你認為正確的有（BCD ）。
A．資料倉儲就是資料庫
B．資料倉儲是一切商業智慧系統的基礎
C．資料倉儲是面向業務的,支援聯機事務處理（OLTP）
D．資料倉儲支援決策而非事務處理

10、聯機分析處理包括( BCD )基本分析功能。
A.聚類 B.切片

C.轉軸 D.切塊

11、利用Apriori演算法計算頻繁項集可以有效降低計算頻繁集的時間複雜度。在以下的購物籃中產生支援度不小於3的候選3-項集，在候選2-項集中需要剪枝的是( BD )

TID	項集
1	麵包、牛奶
2	麵包、尿布、啤酒、雞蛋
3	牛奶、尿布、啤酒、可樂
4	麵包、牛奶、尿布、啤酒
5	麵包、牛奶、尿布、可樂

A.啤酒、尿布 B.啤酒、麵包

C.麵包、尿布 D.啤酒、牛奶

12、下表是一個購物籃,假定支援度閾值為40%,其中( AD )是頻繁閉項集。

ID	項集
1	麵包、牛奶、尿布
2	麵包、牛奶、尿布、啤酒
3	牛奶、尿布、雞蛋
4	麵包、尿布、啤酒、雞蛋
5	啤酒、雞蛋

A.麵包、牛奶、尿布 B.麵包、啤酒
C.尿布、啤酒 D.啤酒、雞蛋

13、Apriori演算法的計算複雜度受( ABCD )影響。

A.支援度閥值 B.項數（維度）

C.事務數 D.事務平均寬度

14、以下關於非頻繁模式說法,正確的是（ AD ）

A.其支援度小於閾值 B.都是不讓人感興趣的

C.包含負模式和負相關模式 D.對異常資料項敏感

15、以下屬於分類器評價或比較尺度的有: ( ABD )

A.預測準確度 B.召回率

C.模型描述的簡潔度 D.計算複雜度

16、貝葉斯信念網路(BBN)有如下哪些特點。（AB）

A.構造網路費時費力

B.對模型的過分問題非常魯棒

C.貝葉斯網路不適合處理不完整的資料

D.網路結構確定後,新增變數相當麻煩

17、如下哪些不是最近鄰分類器的特點。 (C)

A.它使用具體的訓練例項進行預測，不必維護源自資料的模型

B.分類一個測試樣例開銷很大

C.最近鄰分類器基於全域性資訊進行預測

D.可以生產任意形狀的決策邊界

18、以下屬於聚類演算法的是（ AB ）。
A.K-Means B.DBSCAN

C.Apriori D.KNN

19、（ CD ）都屬於簇有效性的監督度量。
A.輪廓係數 B.共性分類相關係數

C.熵 D.F度量

20、（ ABCD ）這些資料特性都是對聚類分析具有很強影響的。
A.高維性 B.規模

C.稀疏性 D.噪聲和離群點

21、在聚類分析當中，（ AD ）等技術可以處理任意形狀的簇。
A.MIN（單鏈） B.MAX（全鏈）

C.組平均 D.Chameleon

22、（ AB ）都屬於分裂的層次聚類演算法。
A.二分K均值 B.MST

C.Chameleon D.組平均

23、資料探勘的挖掘方法包括：（ ABCD ）

A.聚類分析 B.迴歸分析

C.神經網路 D.決策樹演算法

24)Web內容挖掘實現技術（ ABCD ）

A.文字總結 B.文字分類

C.文字聚類 D.關聯規則

25、基於內容的推薦生成推薦的過程主要依靠（ ACD ）

A.內容分析器

B.推薦系統

C.檔案學習器

D.過濾部件

26、雲端計算的服務方式有（ ACD ）

A.IaaS B.Raas

C.PaaS D.SaaS

27)文字挖掘的工具有（ BCD ）

A.SPP Text Mining

B.IBM DB2 intelligent Miner

C.SAS Text Miner

D.SPSS Text Mining

28、推薦系統為客戶推薦商品,自動完成個性化選擇商品的過程,滿足客戶的個性化需求,推薦基於網站最熱賣商品、客戶所處城市、（ D ）,推測客戶將來可能的購買行為。

A.客戶的朋友 B.客戶的個人資訊

C.客戶的興趣愛好 D.客戶過去的購買行為和購買記錄

29、資料預處理方法主要有（ ABCD）。

A.資料清洗 B.資料整合

C.資料變換 D.資料歸約

30、與傳統的分散式程式設計相比，Mapreduce封裝了（ ABCD ）等細節，還提供了一個簡單而強大的介面。

A.並行處理 B.容錯處理

C.本地化計算 D.負載均衡

資料探勘面試筆試題（附答案）

相關文章